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HOMMAGE A GEORGES DARMOIS 
(24 Juin 1888 - 3 Janvier 1960) 


Prononcé au Conseil d'Administration de l’Institut de Statistique 
de l'Université de Paris, le 27 Janvier 1960 


C'est en 1925 que Georges Darmois est entré dans le corps ensei- 
gnant de l'Institut de Statistique de l'Université de Paris à la demande 
d'Emile Borel. Ce dernier récemment élu député de l'Aveyron le char- 
gea d'assurer, à sa place, le cours de Calcul des Probabilités. Geor- 
ges Darmois devenu plus tard titulaire de ce poste le conserva jusqu'à 
ga mort. Sa suppléance était au cours de cette année assurée par 
MM. Girault, Morlat et Indjoudjian. 


A la retraite de Michel Huber en 1944 il fut nommé à la Direc- 
tion des Etudes de l'Institut qu'il cumula avec le Secrétariat général. 
Dès la fin de la guerre 1914, le géomètre, le Spécialiste de la théorie 
de la relativité avait infléchi sa vie scientifique dans la direction du 
Calcul des Probabilités et plus spécialement de la Statistique. Deux 
Membres de notre conseil, MM. Bunle et Rueffont,je crois, une part 
de responsabilité dans cette décision si heureuse pour la science fran- 
çaise. En 1928 il publie un traité de statistique traduit plus tard enplu- 
sieurs langues dont le chinois et même l'anglais. Georges Darmois 
était très fier de le rappeler. On y retrouve le souci de clarté et d'élé- 
gance qui marque l'œuvre et la personnalité de l'auteur comme on les 
trouvera plus tard dans le livre ‘'Statistique et Applications" publié chez 
ArmandColin. En dehors de cetravail d'exposition la Statistique mathé- 
matique est redevable à Geoiges Darmois de recherches très impor- 
tantes. Il est un de ceux qui ont le plus étudié la notion d'exhaustivité 
d'une information, notion capitale puisque certains statisticiens comme 
Halphen et Savage m'ont avoué qu'ils ne concevaient la théorie de l'es- 
timation que dans le cas où l'exhaustivité est possible. Georges Darmois 
a aussi perfectionné, et les beaux travaux de notre collègue Delaporte le 
qualifieraient beaucoup mieux que moi pour le dire, le modèle général 
mis au point par Spearman dit d'Analyse factorielle. Ce modèle créé 
pour les études psychologiques esten fait applicable à bien d'autres do- 
maines eten particulier à l'économie mathématique. Georges Darmois 
enfin s'est intéressé brillamment à la théorie de la corrélation et de 
l'indépendance des variables aléatoires. 
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Ce grand savant fut aussi un grand administrateur, toute saper- 
sonnalité le qualifiait pour ce rôle, son ampleur de vues,sa générosité, 
son rayonnement, sa sérénité. Ce sont les termes dont se servent tous 
ceux qui ont eu à évoquer sa mémoire. 


L'Institut de Statistique lui doit un développement qu'on osait à 
peine prévoir puisque les locaux qui nous sont affectés sont pleins à 
craquer parfois jusqu'à onze heures du soir. 


Georges Darmois a créé à l'intérieur de l'Institut de Statistique 
un ‘'Centre de formation des Ingénieurs et Cadres aux applications in- 
dustrielles de la Statistique" et un Bureau universitaire de Recherche 
opérationnelle, des cours de formation statistique pour médecins. 


Grâce à lui, je cite ici M. Geary, Conseiller Statistique des Na- 
tions Unies et ancien Vice Président de l'Institut International de Sta- 
tistique, le retard que la France avait dans les applications de la Sta- 
tistique a été plus que comblé. 


Deux revues : La Revue de Statistique appliquée, dirigée par 
M. Moriceet les Publications de l'Institut de Statistique qu'il avait bien 
voulu me confier lui doivent d'avoir vu le jour ainsi que l'Association 
des Anciens Elèves de l'Institut de Statistique,lien précieux entre l'en- 
seignement et la vie quotidienne. 


Ce fut enfin un soldat. La liaison étroite que comme Directeur de 
l'Institut de Statistique il a pu établir avec le Comité d'Action Scienti- 
fique de la Défense Nationale était certainement une de ses réalisations 
les plus chères. En 1938, ayant accompli les vingt huit ans de services 
militaires exigés de tous les français, il devait à moins de manifester 
expressément le désir contraire être rayé du Cadre des officiers de 
réserve et rendu définitivement à la vie civile. Il refusa de bénéficier 
de cette disposition de la loi,ce qui entrainait pour lui la charge de 
douze années de disponibilité militaire supplémentaires : la conjoncture 
internationale ne laissait aucun doute sur les risques que comportait 
une telle attitude. Au jour de la mobilisation générale, en septembre 
1939, c'est donc comme volontaire que le Capitaine Georges Darmois 
rejoignait le célèbre 6ème groupe Autonome d'Artillerie, l'unité de 
formation des sections de repérage par le son,l'arme dans laquelle il 
avait avec autant de compétence que de courage apporté sacontribution 
à la victoire de 1918. Quelques semaines plus tard il était versé à la 
Mission scientifique franco-britannique organisée par M. Paul Montel 
à la demande de M. Dautry qui venait d'être nommé Ministre de l'Ar- 
mement. Envoyé en mission à Londres le 15 Juin 1940 il demandait, 
mission accomplie, à regagner la France. Cette autorisation lui ayant 
été refusée il devait attendre le début de 1943 pour pouvoir s'installer 
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à Alger où sa science et son dévouement trouvaient évidemment à 
s'exercer facilement. 


En particulier Georges Darmois éprouvait une légitime fierté 
d'avoir organisé les concours des grandes écoles en Afrique du Nord en 
1943 et je m'honore de l'aide que j'ai pu lui apporter. De cette façon, 
était sauvegardé l'avenir de cette élite morale de la jeunesse française 
qui au prix de difficultés et de dangers sans nombre devait franchir les 
Pyrénées pour rejoindre l'armée. Il eut plus tard la grande joie de re- 
trouver comme élèves d'anciens polytechniciens et d'anciens norma- 
liens ainsi recrutés. 


Le lundi 23 Novembre il s'asseyait pour la dernière fois dans 
son bureau de l'Institut Henri Poincaré. A son poste jusqu'au bout il 
reçut des visites, s'intéressant comme toujours au travail et à la car- 
rière de ses élèves. C'était sa dernière sortie. Elle fut comme il l'eût 
sans doute souhaité consacrée à notre Institut. Inquiet de sa fatigue je 
le raccompagnai chez lui dans cette maison qu'il ne devait plus quitter 
où avec Madame Darmois,vers qui monte notre sympathie, il avait si 
souvent accueilli de son sourire cordial et amène tous ceux qui vou- 
laient l'approcher. Et puis ce fut le lent déclin de ses forces sans que 
cette grande intélligence fût atteinte. Madame Soury, M. Bunle, Gi- 
rault et moi-même qui venions le voir, espérions encore, habitués 
hélas à d'autres crises. C'est seulement le ler Janvier au matinqu'à la 
suite d'un entretien téléphonique avec son ami de toujours M. Gustave 
Ribaud, j'ai compris qu'il fallait mettre son espérance ailleurs que 
dans sa guérison. 


Ses ultimes préoccupations ont été scientifiques, historiques, et 
religieuses. Quand j'ai pris congé de lui ici-bas, le 18 Décembre, les 
dernières paroles qu'il m'ait adressées ont été pour me dire qu'au cours 
de la nuit précédente il avait essayé de percer à jour la pensée de Bayes, 
peu satisfait de ne connaître les idées du mathématicien britannique sur 
la Probabilité des causes que par le rapport de tiers, et qu'il avait ré- 
fléchi au problème de gouvernement que posait pour Saint-Louis la ques- 
tion de l'hommage. 


La Bible était une de ses lectures favorites... et pendant que 
nous veillions sa dépouille, ma femme et moi nous évoquions le verset 
d'Esate qu'il aimait citer : ‘'Sentinelle que dis-tu de la nuit ?" 


Vous n'entendrez sans doute pas sans émotion la dernière phrase 
que sur laterre d'Afrique mon Maître consacrait à Newton en 1944 dans 
la Revue d'Alger. Georges Darmois concluait ainsi NEt l'on doit à la 
France de dire que si Newton poursuit en l'autre monde des dialogues 
sur la mécanique céleste et l'Astronomie, c'est probablement avec des 
géomètres français qu'il s'entretient, car c'est en notre pays qu'on a 
surtout contribué à établir sa théorie et sa gloire’. 
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L'institut de Statistique de l'Université de Paris conservera long- 
temps le souvenir de l'éminent humaniste scientifique qui l'a dirigé 
pendant quinze ans et qui a laissé un tel exemple à ses élèves. 


M.D. DUGUE 


Pierre THIONET 
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CHAPITRE V 


LES SONDAGES A PLUSIEURS DEGRÉS 


1 - GENERALITES - 
L'étude des sondages à deux degrés englobe comme cas limites: 


- le sondage en grappe(1) si le 2ème degré disparaît; 


- le sondage stratifié si le ler degré disparaît, 


Par sondage à plusieurs degrés on entend ici plus généralement 
une combinaison quelconque de sondages en degrés, avec stratifica- 


tions, sous-stratifications, tirages en grappes, probabilités égales ou 
inégales, avec ou sans remise des boules tirées. Sont exclus les sché- 
mas detirage avec probabilités inégales tels que les unités de sondage 
ne puissent jamais être prises qu'une seule fois 2), 


Le découpage est supposé complet et invariable. Enfin les di- 
vers tirages au sort sont supposés indépendants entre eux. A chaque 
tirage, le nombre d'unités de sondage à tirer est prédéterminé, indé- 
pendant des tirages précédents, que ce nombre soit fixe ou en propor- 
tion fixe de certains paramètres de la population et du sondage. De 
plus chaque tirage est indépendant des tirages voisins : dans les autres 
strates et les autresunités de sondage de même rang. 


Toutes ces hypothèses sont habituelles en technique de sondage; 
par exemple établir des compensations entre strates (Goodman et 
Kish) n'est pas d'usage courant. 


(1) Echantillon en grappes - Mêmes formules que pour le sondage à 1 degré, en 
désignant par © l'écart-type entre les grappes et non entre les unités. 


(2) Car il en résulte des complications que les travaux les plus récents com- 
mencent seulement à surmonter (voir T.5, ch.IV). 
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II - ECHANTILLON STRATIFIE - 


Considérons une population découpée en strates numérotées 1, 
2, ...h... Adoptons les notations suivantes : 


Strate h Population 
effectif : v, v = 2, v, 
moyenne des x,;:%Xx}, PE ce 
écart-type des x,,: G, estimateur sans biais de x : 
effectif de l'échantillon : n, _ e VE 
moyenne des x,, échantillon : X, A = Li 


La variance est 
= V 2 _— 
vx -2 eo V(X,) 
c'est-à-dire 
2 
Vh 
= eo p(v,, n,) 


Si l'on envisage, toutes choses égales d'ailleurs, un second 
échantillon d'effectifs n} tels qu'on ait (quel que soit h) 


n,< n, 
on aura : 
=S == V 2 
VX'-VX=ZX (©) (pu, ni)- pv, nl 
Vh 2 
=2 G) sp, m1) 
Et si l'on pose, symboliquement cette fois : 


DE Vn\° 
nd tien 
. 


on aura bien la relation : 
p(v, n')=p(v, n)+6P(n, n!) 
La variance Ÿ X est une perte d'information. 


Topologie du sondage stratifié. 


Figurons tous les estimateurs x (ci-dessus) par des points sur 
un demi-axe, points rangés par ordre de variance croissante: c'est la 
représentation la plus simple, 
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_ Par exemple, on peut porter,à partir de l'origine U, la longueur 
VX = (UX); la distance (XX') de deux points de l'axe est égale à la 
combinaison des suppléments de perte d'information par strate, tandis 
que (VX) est la combinaison des pertes d'information par strate (com- 
binaisons linéaires à coefficients constants). 


Toutefois l'ordre des X sur leur axe dépend des grandeurs res- 
pectives des paramètres ©, et 0; de chaque strate. Pour obtenir une 
figure invariante, on représentera les sondages stratifiés par le gril- 
lage (n;) : à chaque sommet de ce grillage correspond l'estimateur 
sans biais X du plan de sondage correspondant. 


Remarque 1. 


Si les tirages sont avec remise, les "barreaux" du grillage sont 
en nombre infini : ils s'accumulent, leurs limites correspondant à la 
connaissance complète d'une certaine strate. 


Remarque 2. 


Les ‘'barreaux'' du grillage (sur toute leur longueur) sont axes 
d'information : l'échantillon extrait de toutes les strates, sauf une, 
restant fixe, la variation de l'effectif de cette seule strate correspond 


à des tirages dans une urne unique. 


Le seul terme de la variance VX, qui correspond à cette strate, 
varie; c'est Ÿ X, (au facteur (v,/v})* près); V X vérifie donc bien la 


condition d'alignement. 


Représentation métrique multidimensionnelle. Usage d'une dimension 
par strate. 


Dans l'espace euclidien (E) à L dimensions, (par exemple à 3 di- 
mensions pour 3 strates), on conviendra que le point X de coordonnées 


ë, 
2 
V = 
n =) °& 
représente l'estimateur x: l'origine des coordonnées représentant x. 


D'ous 


Plus généralement, le point X représente le plan de sondage (n;) 


Lorsqu'on donne aux divers n, toutes les valeurs permises 1, 2, 
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. V,, l'ensemble des points X constitue les "nœuds" ou sommets 
d'un grillage. * 


Et lorsqu'on fixe les valeurs de tous les n, sauf un, le sous- cu 
semble de points s'aligne sur une demi-droite constituant un l'barreau" 
dudit grillage. 


On ne nuit pas à la généralité en se limitant ici à 3 strates. 


a) Soit X et X' deux estimateurs représentés par deux 
points du même ‘'barreau', - disons que : 


ns n Sn; Neue 
On aura : 
a  — VAN EC A 
RARES CROIENT ES ———— |— - — 
V Ve AG n, 


= 


à présentn, >n; n,>n,;n,=n;. On peut 
n,) de façon que : 


b) Supposons 


définir un point intermédiaire X''(n,, n!, 


= = = = VIN T7 1 
G 1,217 M LG 1 = ue = =) — 
vX Se el, 6 ee tn 
Sr EN Le ENS ET y VO /dl 1 
RS RCE — 


RCE VIR = GX L') FOX CR) El En 


Ici les segments XX'' et X''X' sont parallèles aux axes; dans le 
cas général, c'est tout une ligne polygonale XX'"', XX", ..., X''X!, 
dont chaque segment est parallèle à un axe de coordonnées, qu'il y 
aurait lieu de considérer. 


Une confusion à éviter. 


On évitera de confondre l'espace (E) considéré ci-dessus avec 
l'espace (A) dont on fait aussi usage à propos de sondage. Tout aléa- 
toire y est figuré par un vecteur. Deux aléatoires indépendants sont 
figurés par deux vecteurs orthogonaux de (A), l'espérance mathéma- 
tique du carré de la différence entre deux vecteurs correspond aucar- 


ré de la distance dans (A). 
Par exemple, X et X' étant définis comme ci-dessus, on a: 


ER SR) EN ON EC) 
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ECO) Ru) Le 10 


relation qui correspond à l'orthogonalité des vecteurs xX et XX' dans 
l'espace (A) évoqué, et non dans l'espace euclidien (E). 


Bien au contraire, on a vu dans l'exemple (a) que 0e pouvait 
être parallèle à un axe, alors que xX n'était pas forcément parallèle 


à l'autre axe, et d'ailleurs sans qu'on ait exigé que les axes de coor- 
données de (E) soient rectangulaires. 


On peut en particulier en déduire le paradoxe suivant. Posons : 
X NC EU x 
estimateur sans biais de x au même titre que X et X'; dans l'espace 
(A) il ne fait aucun doute que le point représentant cette combinaison 
linéaire de X et X' est sur le segment joignant les points X et X', On 
pourrait donc croire que, dans l'espace euclidien (E) il en serait de 
même. Ce serait inexact. 
Le calcul montre immédiatement que : 
SR) etienne CE. 2) 
CRU) EX EC) 
et il est donc impossible qu'on ait : 


distance XX' = distance XX” + distance sci X! 


lorsque X et X' sont (comme en a) sur un barreau du grillage. 


Sondages stratifiés particuliers. 


a) Sondages représentatifs. 


De l'ensemble des points X ou (n,) on va extraire les points (f v,) 
sous-ensemble à un seul paramètre f; dans l'espace (E), les &, sont 
fonctions linéaires de.1/f et les points sont alignés. 


E= "e = 1) 


Lorsque fw n'est pas entier, on peut convenir de rejeter ou non 
les points. On retiendra que le sondage "représentatif" est représenté 


par une division sur un axe, homothétique de celle du sondage simple. 
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b) Sondage ‘'optimum'' au sens de Neyman et Yates, 


On sait qu'en adoptant des n, proportionnels aux v, SA LERE on 
rend la variance VX minimum à coût constant E C,n,= C. 


Les points (n,) correspondants (après arrondissement des n;) se 
trouvent sensiblement eux aussi sur un axe d'information : 


On sait effectivement que VX a pour expression : 


MY 1 
sondage représentatif : Ÿ 5 TRES & - 1} 
RE 


CL : [CS N AA) CM 4 l W © V, Ch 
sondage optimum : 2 o verte de Neal 


III - SONDAGE A 2 DEGRES A 2 PARAMETRES, AVEC TIRAGES 
EQUIPROBABLES - 


On a indiqué déjà (Ch.III, $ II) que le sondage à 2 degrés et 2 
paramètres (m, n) (avec V,= V) correspondait au treillis le plus 
simple: : le grillage (m, n) dont les sommets sont repérés par les en- 
tiers (m,n), 1<m<h, l<n<v. 


Le point (US V) représente la connaissance parfaite; tandis que 
le point (m, n) représente les sondages de taille (m, n). 


Posons : X-= SiS;x;/m n; x = pr Eix;;/u V 
RES RE, avec X,= Lixi/v 
X=I;xip, avec x: = S;x;,/n 


Attachons X à (m, n)etXa(u, V), xa(m,V)etXà(u, n). 


Nous avons montré ailleurs (T.4) que, pour tous les sondages à 
deux degrés (indépendants l'un de l'autre), on avait : 


VX =E(X - x) = E(X - x) +E(X- x) 
=6(X- X) +6(X - x) 


c'est-à-dire : 
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(REX) (RE) 0 


A la première décomposition de X correspond une première 
famille d'axes : 


2 
Q 


&(x - x)’ . ET = constante 


donc 
m = constante; n variable (verticales) 
avec Si 
D) ae PQ 
ao TE 


A la deuxième décomposition de VX correspond une deuxième 
famille d'axes 


A RERTE 
AS RURE 
&(X - x)’ = 2 si — 7 = constante 
H NV t 
n = constante; m variable (horizontales) 


avec VX -&(X-x) = 


bas , 1 y _v cé eee 
b-1 # V-1 \n y/\m k 


La formule de récurrence est valable pour Ÿ X à condition de 


compter le trajet X X' le long d'axes d'information et jamais directe- 


ment entre deux points qu'un axe ne relie pas. Entre les points (m, n) 
et (m', n), m>m',n>n'on doit suivre un trajet en ligne brisée em- 
pruntant les côtés du grillage. 


Remarque. 


On a sur les premiers axes 


s(-0m | 2 2 1].1-1 
n 


V n 


et sur les seconds 


M SN RS 
sh)-o cm) Et _— SUR 
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Représentation métrique 


Dans l'espace euclidien, considérons le point de coordonnées (ar 


EN à) 
a=6(x - x); B =6(X - x)’; Y Eine B 
É ; m 
On a par ailleurs : 
Gi b 

POTTER AE 
donc : 

(ps 

= 
mc Y=ap 


équation d'un paraboloïde hyperbolique P.H. dont les deux familles de 
génératrices correspondent respectivement à a = constante et B = cons- 
tante; c'est-à-dire se projettent suivant le grillage (m, n) sur («B). 


Double décomposition de VX. 


=6(x- x) +6(X - x)’ 
VX =(a +Y)+B = E(X-X) +E(X - 5) 
car E(X-X} =6(%-x) +60(X-x (K-%}/=0a+7y 


En résumé les plans de sondage à deux degrés, dans le cas où 
n;=n, VM=V , 


sont représentés par les nœuds d'un treillis dessiné sur un certain 
paraboloïde hyperbolique (P.H.), treillis dont la projection sur le plan 
des (a, B ) est un grillage. 


Les côtés des mailles du treillis sont tous portés par des généra- 
trices (de l'un ou l'autre système) de P.H. 


La perte d'informationest la somme (a +8 + Y) des trois coor- 
données des points figuratifs. 
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Les points situés sur des plans parallèles, d'équation : 
& +8 + Y = constante 


représentent des sondages donnant d'égales pertes d'information. 


Autre métrique. 


Représentons le même phénomène avec des coordonnées «', B', 
ÿ! égales à Va VB \r. C'est même l'idée la plus naturelle, quand on a 
l'habitude de considérer &(X = +). etc. comme les carrés de cer- 
taines distances,et les relations 


Il 


E(X - xÿ = E(X - x)’ + &(X - %)° 


&(X - x) + E(x - x)’ 


comme deux expressions du théorème de Pythagore. 


Alors la perte d'information est : a? + 6? + Y'? c'est-à-dire le 
carré de la distance de x à X. 


Il est à noter que (P.H.) se transforme en un autre paraboloïde 
hyperbolique P.H' d'équation : 


Tes MENU EN 


toutes les propriétés relatives aux treillis, grillage et génératrices 
rectilignes se conservent. Mais les lieux des points d'égales pertes 
d'information sont les sphères de centre x. 


Remarque. 

On évitera de confondre P.H. ou P.H' et l'espace (A) des son- 
dages où, ee et se, étant représentés par deux points d'une même gé- 
nératrice de P.H. ou P.H', on aurait : 


GX) = ER FE X,) 


I1 serait absolument vain de vouloir représenter cet espace dans 
l'espace à trois dimensions ; chaque génératrice du P.H. représente 
elle-même un espace euclidien à v dimensions. 
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IV - LES SONDAGES A PLUSIEURS DEGRES EN GENERAL - 


1/- Tirages équiprobables : Cas de deux degrés de sondage. 


La double décomposition de la variance a été démontrée dans le 
cas général, à la seule condition d'écrire : 


= — 1 & © Vi-n: 
&(X- x)° = Rs SRE | 


et en supposant exhaustifs les tirages élémentaires. 


Au lieu de deux paramètres (m,n), il y a (H + 1) paramètres (m, 
n;), car on suppose les n, définis pour toutes les unités du 2ème degré, 
tirées ou non. 


Si m ne change pas, la variation des n, a le même effet que sur 
un sondage stratifié, de sorte que VX se comporte comme une perte 
d'information au sens du chapitrel, représentable sur un axe. A chaque 
mcorresponduntelaxe, et leur ensemble peut être figuré par des bar- 
reaux parallèles empruntés à un grillage. Pourtant chaque axe symbolise 
un grillage à L dimensions comme pour un sondage stratifié. 


Si l'on fait varier m tout seul sans toucher aux n;, la seconde 
décomposition de la variance entre en jeu; et il existe une seconde fa- 
mille d'axes (n:) représentée par les seconds barreaux du grillage , 
croisés avec les premiers. Ces axes ne sont d'ailleurs pas ordonnés, 
de même que l'ensemble des points (n.). 


Pour passer d'un plan de sondage à un autre (d'effectif plus ré- 
duit) on se déplacera sur une génératrice d'un système, puis sur une 
génératrice de l'autre système; et on aura encore le droit de dire que 
la variance est une perte d'information. 


Représentation euclidienne métrique. 


x n'est pas modifié et f ne l'est guère : 


is ven: 
Ês Bb T n; V;- 1 
On a encore : 
- Hzm 
Y = B 
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Conclusion. 


On retrouve le même P.H. qu'en II, et la même famille (dénom- 
Ibrable) de génératrices m = constante; en revanche sur le deuxième 
faisceau de génératrices, la substitution des n; à n augmente très no- 
tablement le nombre de génératrices du P.H. réellement utilisées 
comme axes d'information. 


2/ - Extension à un nombre quelconque de degrés de sondage. 


On sait que la variance d'un sondage à trois degrés et plus se 
décompose (et de plusieurs façons) comme celle du sondage à deux 
degrés. Il est possible de représenter les sondages à d degrés par les 
nœuds d'un grillage généralisé à d dimensions. 


Sur un barreau quelconque du grillage, V X satisfait à la condi- 
tion de récurrence. Pour comparer deux sondages quelconques, il 
faudra se déplacer de proche en proche le long des barreaux. Si les 
effectifs de l'un sont tous au moins égaux à ceux de l'autre, on peut 
alors écrire la condition de récurrence. 


3/ - Cas où les tirages élémentaires sont bernoulliens. 

On sait que la double décomposition de la variance du sondage à 
deux degrés est encore valable avec des tirages bernoulliens. La re- 
présentation par P.H. est encore valable : 


a) en remplaçant (Hi - 1) par LH dans l'équation du P.H.; 


b) en faisant intervenir une infinité dénombrable de géné- 
ratrices du P.H. de chaque famille (1 £ n, 1 <m) et non plus un nom- 
bre fini de génératrices. 


Les grillages comprennent une infinité dénombrable de barreaux 
des deux systèmes. 


On peut accroître le nombre de degrés de sondage, - ou employer 
les sondages bernoulliens pour certains degrés.et les sondages exhaus- 
tifs pour d'autres degrés. 


4/ - Cas où il existe des strates et des sous-strates, 


A condition d'adapter les axes utilisés, rien n'empêche de com- 
pliquer le plan de sondage avec des strates (au ler degré), des sous - 
strates (au 2ème degré), etc. 
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5/ - Cas où les tirages ne sont plus équiprobables. 


Limitons-nous au cas le plus courant où les probabilités de tira- 
ge au ler degré sont proportionnelles à la taille des unités primaires 
de sondage et où une seule unité primaire est tirée; au second degré, 
les tirages sont supposés équiprobables. 


On sait que la double décomposition de la variance est valable 
avec des probabilités de tirage inégales, à condition de modifier légè- 
rement les définitions de X et x (moyennes pondérées pour X et x, 
simples pour X et x). 


On peut donc étendre la théorie du grillage et aussi celle du pa- 
raboloïde hyperbolique. 


X suit la formule de récurrence le long des axes d'information, 
etcette formule s'étend à un trajet en ligne brisée empruntant les axes 
ou génératrices; ceci suppose que la taille de l'échantillon s'est réduite 
(c'est-à-dire qu'aucun des effectifs n'augmente quand certains di- 
minuent). 


V - APPLICATION A L'ETUDE DU SONDAGE A 3 DEGRES (ET 
A3 PARAMETRES)- 


1/ - Décomposition de la variance en 7composantes. 


On abandonnera les notations précédentes (Réf.T.4) pour alléger. 
Si on désigne par X,,, ou III l'estimateur sans biais de X,,çou 000, la 
variance de cet estimateur s'écrit : 
Va E(X,,,- Xo) = E(lII - 000) 
= E(III - OIL) + E(OII - 001) + E(00I - 000) 


etc. 


Elle peut donc prendre six expressions différentes, qu'il est com- 
mode de représenter comme suit (avec 12 composantes) : 


a+tB+ y ACER 
BEC UE b + A! +7 
C T'AS CH BE 


Toutefois on a : 
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at+tB=b+A'=a+b+{(ab) = V- y 


bÆHC=c5+Bl=b +ci+ (bc) =:V - .« 


il 


CTA=aæ#C'i= c++ au (ca): V - B 


Ainsi la variance V s'exprime à l'aide de 9 composantes seule- 
nt à, bic, (ab), (bc), (ca); « ,; BP: +. 


De même, il est clair que : 


V-a=B+y=C'+8=B+C'+(BC') 


V-b=C+ü@=A'+Y=C+A'+(CA!) 
V-=c=A+fP=B'+0=A+B!+(AB!) 


En combinant ces résultats, il vient : 


Visa Difib:t(ab)lé# fesh(ea)li+ (BC!) 


a +b +c+(ab) +(ca) + (bc) + (BC!) - (bc) 
et deux formules analogues; d'où il suit que : 
| (BC!) - (bc) = (CA!) - (ca) = (AB!) - (ab) = z 
: et trois formules semblables, d'où trois expressions symétriques : 
(B'C) - (Ba) = (C'A) - (ya) = (A'B) - (ab) 
_ On posera : 


z = (abc) 


en remarquant qu'avec le sondage à 2 degrés, les 3 composants de la 
variance V sont représentés par le symbole : 


a +b +/(ab)= (1:+a) (LL hb) - 1 
et qu'avec le sondage à 3 degrés, le symbole à employer est,cette fois : 
(a) 4(L + b} > (1+c)- 1=a+b+e-+{(ab) + (bc) + (ca) + (abc) 


2/ - Théorème. 


Les 7 composantes précédentes de V sont des variances (et par 
conséquent sont positives). 


387 


24, PIERRE THIONET 


En effet : 
(1) (ab) (bc) (ca) sont par définition des covariances : 


(ab)}:= B- b'= Al a 


(LI 


E (110 - 100)? - E(010 - 000) 


°U 


E (110 - 010)? - E(100 - 000)? 


(ll 


E [(110+000-100-010)(110+010-100-000)] 


E [(110+000-100-010)(110+100-010-000)] 


(2) Mais la théorie du sondage à 2 degrés(1) établit que (ab) est aussi 
une variance 


(ab) = E(110 - 100 - 010 + 000Ÿ 
Ceci résulte du choix d'estimateurs sans biais 110, 100 et 010, 
qui entraîne l'orthogonalité de (110 - 109) et (100 - 000) 


et celle de (110 - 010) et (010 - 000) 
(comme sur le cube de la figure ci-dessus) 


E{(110 - 100).(100 - 000)] = E[(110 - 010).(010 - 000)] = 0 


avec 
E [(100 - 000). (010 - 000)] = E[(110 - 100).(110 - 010)] = 0 


cp E[(110-100).(010-000)]=E [(110-010+010-000+000-100)(010-000)] 
=0+E (010 - 000) + 0 
D'où : 
E(110-100-010+000)=E(110-100) +E(010-000)?-2E[(110-100)(010-000)] 
=E(110-100)+E(010-000)?-2E(010-000)? 
=E(110-100) -E(010-000)? 


DSCRi uk 


(1) Cf. Annexe de l'Etude théorique n°6 de l'I.N.S.E.E. (Réf.T. 4). 
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(3) Or il est clair que (abc) joue vis-à-vis de (ab) (bc) et (ac) le même 
rôle que (ab) vis-à-vis de a et b. Cette différence de deux variances 


est encore une variance du fait de l'orthogonalité (c'est-à-dire de 
l'absence de biais des estimateurs). 


C.Q.F.D. 


Remarque. 


Par exemple, dans les cas d'ordre r = 1, avec des tirages sans 
remise équiprobables, on sait que (ab) est de la forme : 


À se. He bla; Lo 
(RD) EE MDP (? L) M 


De même : 


(abc) = (AB!) - (ab) = - À - m(£- u 


Si l'on se souvient que : 


On arrive finalement à : 


LS 114081 PAT 
os «(+ x à) (à : à. (4 | 


3/ - Interprétation géométrique. 


a) Dans l'espace à 3 dimensions, un parallélipipède de 
sommets (000), (001), ... (111), dont les 12 arêtes s'appelent abc, 
ABC, A'B'C',a ff Y, donne du plan de sondage une représentation 
topologique valable. La famille des plans de sondage est représentée 
par un grillage à 3 dimensions. 


b) La représentation métrique nécessite au contraire un 
espace euclidien dont le nombre de dimensions n'est pas évident. On 
pourrait en prendre 9. 

3 pour abc; 


3 pour (bc) (ca) (ab) ou a' b'c'; 


3 DOUr ü- à, B-Db, yY-coua bc" 
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. . . LL 
c) Mais considérons lestrois plans de coordonnées a'a , 


a! b' c' 


Posons V-(at+tb+c)=A.OnaÀ=a'+a" =b!+b"=c!+c" (voir la 
figure) c'est-à-dire que le point x,,, est astreint à rester sur une mul- 
tiplicité linéaire à 4 paramètres dans le sous-espace (a' b'c'a"b"c"): 
à 6 dimensions. 


Ilest donc naturel de chercher une représentation à 9 - 2 = 7 di- 
mensions où V soit la somme des 7 coordonnées. C'est le cas pour 


V=a+b+e+(ab) +(bc) + (ac) + (abc); 


cette décomposition (parmi bien d'autres)n'est celle retenue que parce 
que le terme résiduel (abc) est une variance lui aussi. 


4/ - Les trois familles d'axes d'information. 


Il est clair qu'il y a symétrie entre tous les degrés de sondage, 
c'est-à-dire ici entre (a a' a") (b b' b'"') et (ce c' c'). 


On fera varier simplement le paramètre du ler degré pour ob- 
tenir la 1ère famille de génératrices rectilignes; il lui correspondra 


une famille analogue pour chacun des autres degrés de sondage. 


Faisons varier a seulement, b, c et (bc) 
restent constantes, pendant que a (ab) (ac) 
(abc) varient. Les projections des points 
X,,, Sur le sous-espace a, b, c, (bc), sont 
alignées, mais on ignore ce qui se passe 
dans le sous-espace (ab), (ac), (abc). Ex- 
plicitons les composantes. Par exemple 
avec des tirages sans remise équiproba- 
bles, on a : 
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(abc) = k'( = 1), 


soit 4 fonctions linéaires de (1/n); d'où l'axe (b, c); d'où : 


THEOREME - 


Si la perte d'information est la variance, il existe trois familles 
d'axes d'information pour le sondage à 3 degrés; leur représentation 
métrique euclidienne demande un espace à 7 dimensions. 


Corollaire. 


Pour le sondage à d degrés, il y a d familles d'axes, dans l'es- 


. . d . A 
ace euclidien à 2 - 1 dimensions. 


Remarque. Changement de métrique. 


Lorsqu'on emploie une perte d'information plus générale que la 
variance, la décomposition de cette perte en ses (2° - 1) composantes 


est invariante; et même tous les facteurs tels que 5- L > = -i 0 
À fie hi 
ù - È , 9 (V) - $ (n) ne sont pas modifiés. 


V - SUR LES PROBLEMES DE REPARTITION OPTIMUM - 


1/ - Généralités. 


La répartition optimum (au sens de Neyman) de l'échantillonest 
celle qui (pour un effectif ou un coût de sondage donné) rend minimum 
la variance d'échantillonnage d'un paramètre privilégié. Plus généra- 
) lement on peut songer à rendre minimum une certaine perte  d'in- 
formation. 


Tant qu'on déduit celle-ci de la variance en substituant à (x =x)/2 
une fonction f(x; x; ...) on est ramené aux problèmes classiques, moy- 
ennant quelque changement de paramètre; par exemple, au lieu d'ef- 
fectifs de strate proportionnels aux 


\v, CN: x 
on les prendrait proportionnels aux \ Y, , dans le cas du sondage stra- 
tifié (Neyman 1934). 


Nous avons montré ailleurs (T.5, Ch. 3) comment à ©, pouvaient 


être substitués d'autres paramètres, quand le but immédiat du sonda- 
ge était d'estimer, non plus un certain es 
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E= L;2;x;; 


mais par exemple les 0, eux-mêmes (en vue d'estimer £ par un autre 
sondage). 


2/ - Un problème nouveau. 


Examinons ici le cas où l'on estime (avec biais) a la plus grande 
valeur de X;lescas de la plus petite valeur et de l'étendue sont analo- 
gues. La perte d'information sera définie comme ci-dessus (Chapitre 
IV, SII, 4) pour une strate 


[a-E ii (strate h) 


Soit X le plus grand des X de strate, c'est-à-dire la plus grande va- 
leur de l'échantillon. La perte d'information correspondante est ma- 
nifestement : 


p=a-&X=a- IUEX, 
w, étant la probabilité que le plus grand des X soit dans la strate h. | 


La stratification optimum serait celle qui (pour un coût £,n,C, ou 
un effectif 2, n, donné) provoquerait la perte d'information minimum. 
Pratiquement on connaît une variable Y en corrélation étroite avec X 
et on stratifie suivant des tranches de valeurs de Y. Si X a de fortes 
chances de se trouver dans la strate 1, on ‘'gonflera"' l'échantillon de la 
strate 1;mais onhésitera à priver les autres strates de tout échantillon. 


3/ - La solution. 
Il est possible de montrer que l'effectif optimum n, par strate 


serait, en première approximation : 


a) proportionnel à la racine carrée d'un certain écart 
moyen entre les x}; 


b) inversement proportionnel à la racine carrée du coût 
moyen d'enquête par unité de sondage; 

c) proportionnel à la racine carrée de l'effectif Vv, dela 
strate; 


d) proportionnel à la racine carrée de la probabilité w, . 


Le calcul est facile quand on suppose les n, petits à côté des LAS 


ou les n à côté des v(l'indice h étant sous-entendu) : la loi de distri- 
bution du plus grand X des X échantillon est [F(X) ]° = G(X) où F prend 
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il V - 
elle-même les valeurs | 0 SO PE È ; 1 |pour les valeurs crois- 


\ V V 
BNtesSi2 7; -.. Z.,, z, = a de la variable X. G(X) prend donc les va- 


D. ET: 


1e Li) 2\ Vel 
REX = (z.- 2) Gi - à (2 2) (- F2 EF(22" 2.) (.- = ) 


leurs en palier 


NE Æ | 
Remplaçons ( - 1) par@v =u/(en première approximation), 


 Admettons les (z; - z;_.) tous de l'ordre de ô ; posons f=n/v, u -e'; 
lil vient 


an PiX On (Eu... ui 6. u(lu- u)® 


Le minimum de la perte d'information (toutes strates) 


[5 | 
leu h 


lié par ANR OPEN 


- w Ô 
est donné par (1- u) = u FE 
h 


w Ô 
d'où approximativement f° | 
h 


4/ - Evaluation des w,. 


En réalité les W, sont très différents les uns des autres lorsque 
la stratification est faite efficacement. Il serait peu réaliste de n'en 
pas tenir compte sous prétexte qu'on ne connaît pas leurs valeurs. 


Lorsqu'on se sent capable de donner des valeurs numériques 
subjectives q,...q,, aux probabilités a priori que a,... a, soit le plus 
grand des a, il résulte de la formule de Bayes que &, et q, diffèrent peu 
l'un de l'autre, si la stratificationest bien faite; l'emploi de coefficients 
arrondis 0,8; 0,5; ou 0,1 est très suffisant en pratique. 
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CHAPITRE VI 


SONDAGES DIVERS 


I - SONDAGES A DEUX PHASES - 


A. 1/ - Généralités. 


On dit que le sondage est à deux phases lorsque l'enquête porte 
sur un caractère auxiliaire ŸY soumis à un sondage double (1ère et 
2ème phases) - et surles caractères principaux X soumis au sondage 
à la seconde phase seulement de l'enquête. Ceci constitue un procédé 
pratique d'enquête (sociale par exemple) pourvu qu'il existe entre Xet 
Y une forte corrélation, et que le coût des opérations d'enquête con- 
cernant Y sans X soit très faible comparé à celui concernant à la fois 
Xet Y. Par exemple ce sera le cas lorsque Y est obtenu en consultant 
des documents,alors qu'il faut envoyer un enquêteur sur le terrain pour 
recueillir la valeur de X,. 


2/ - Cas où l'échantillon de la 2ème phase est extrait du grand 
échantillon de la lere phase. 

Supposons que la 2ème phase porte sur un petit échantillon pré- 
levé dans le grand échantillontiré à la 1ère phase. Entre les deux pha- 
ses on peut stratifier le grand échantillon suivant les valeurs de Y, et 
le petit est extrait de cette sous-population stratifiée; cette méthode 
est due à Neyman (1938)(1). 


Soit X, l'estimateur de x après les deux phases, soit X, l'esti- 
mateur qu'on pourrait former pour x avec le grand échantillon, sil'on 
recueillait les données x; correspondantes (ce qui n'est justement pas 


le cas). Admettons que X,-et X, soient sans biais; il vient(2) : 


VX, = &(X, - xŸ 


SL CL) delt-x) F26(X, -X)IX -x) 


(1) N2. La théorie de Neyman se limite à des tirages bernoulliens. 


(2) Ce calcul est emprunté à T. 4. 
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Mais on a : 
&l(X, = 5) . (Ére = x)] =10 


le tirage du petit échantillon ne dépendant pas des résultats de la 1ère 
pnase. 


D'autre part, pour un grand échantillon déterminé, on a : 
= ET 
EX, 26) = VX; 


la lettre V désignant une variance aléatoire contrairement à la lettre 
+. Finalement il vient : 


V X, = VX, +E(V,X,) 

a) V X, dépend de l'effectif du grand échantillon; par ex- 
emple si on le tire par simple tirage au sort (bernoullien ou exhaustif) 
+ X, est fonction de la taille m dudit échantillon : 

= 2. 2 : 
Ko) X; AO ss ou on Ie Le 
m ee [0 il 
u étant l'effectif de la population. 
b) \ 0 dépend des effectifs du grand et du petit échantil- 


lons; par exemple, si le grand échantillon est découpé en strates 
d'effectif M,, où les tirages effectués sont exhaustifs, on a : 


2 2 
TRES TER Mr Sh A | 
mere F4 F5) MT, M: 
avec ZM, = m 


n, = effectif du petit échantillon, strate h. 
variance du grand échantillon, strate h. 


un 
TN 
il 


On en déduit : 


= + M? /1 1 M. S2 
ET X)=> SAVE ne NL, OS} 
( pe ) Fr «| ne e a) Le So 


en s'appuyant sur le fait que les deux crochets ont une covariance nulle, 
parce que,quel que soit M,, l'espérance mathématique du dernier cro- 
chet est : Lu, o/h, - 1 


Si l'on désigne alors par p, la probabilité de tirer une unité de la 
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strate h lors du tirage initial, on a finalement : 


U - m 
= 1 


« u,0? phare P, UP 
SUN XX) => — - — & 
M EEE fer RE Des or 


Remarque 1. 


&(M,) = mp: E(Mi) = (mp,) + mp,q 


Pour m=Hh,on retrouve la variance du sondage stratifié limite 


2 2 
= ER ci 
lime&v,X,=VX,- > (e Spore ) 
| n \b Un 1 \n, Hh 


Remarque 2. 


Ce calcul suppose d'ailleursn, inférieur ou au plus égal à M;. 
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Or 


si l'on se donne à l'avance m et les n, (avec Det m)il ya souvent une 


probabilité non nulle (et parfois assez aude) que n, dépasse M,. 


Le calcul n'est donc correct que dans des cas limités, où m 


reste en fait voisin de lb. 


Mais il faut distinguer deux possibilités : 


M, = 0 : Cas extrême où la strate (h) ne serait pas représentée du 
tout dans l'échantillon; sil, est très petit, l'inconvénient 
pratique est minime, si LH, n'est pas petit, le cas ne peut 
se produire qu'exceptionnellement (sim est lui-même as- 


sez grand). 


0 <M, <n,:(cas qui disparaît d'ailleurs si l'on remplace les tirages 


RL: 


s 


exhaustifs par des tirages bernoulliens à la deuxième 
phase). La contribution de la strate à la variance doit être 
considérée comme nulle (et non pas négative). L'effectif 
réel de la strate en 2ème phase est ramené de n, à M, 
(économie d'argent et perte d'information). Moyennant 


quoi, tout rentre dans l'ordre(l), 


Dans la suite, on fera tous les calculs formellement (avec des 


1) Nota - Se donner m et choisir les n,, une fois connus les M,, ou encore se 
donner les n, et augmenter m jusqu'à ce que tous les M, soient supé- 
rieurs aux n,, sont aussi des procédés possibles mais défectueux car : 
les estimateurs employés ne sont plus sans biais; la variance voit son 


expression modifiée. 
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tirages exhaustifs aux deux phases) sans chercher à savoir à partirde 
quel moment on sort du domaine des chosès possibles. 


B - VARIANCE ET PERTE D'INFORMATION. 
On désire savoir quand on a le droit d'écrire : 
VX,=VX,+6(X,- X,) 
en envisageant deux échantillons (m, n,, x) et (m', n}!, X!) avec 
m > m', non 


1/ = Etude du cas m = m'. 


Alors V X! = <. 
D'où:VX!-VX,= E(V, X!) - E(V, X,) 
2 
M, S, ML nl 
25 Ge) EG) EN 


D'autre part, X! étant l'estimateur À M;X!,/m, et les (n!) unités 
étant tirées au sort parmi les (n;,), on a:" 


— = MN nsE Et 1 
TE 2 = h h h +, ER ds 
EU . ( —. nie (2 1) 


en désignant par (s°) les variances de strate de l'échantillon (n,). D'où : 


Se [ (Nas COR S 
Or NT ni = Lin) n, 


c'est-à-dire : 


EE, (X! Le 


Enfin : 2 2 
ER = M; M4 Sh il 1 
1 J4.10 1 SL. nn ee ET 
HAE De de ) 6 ss È :) 
c'est-à-dire : 


De E (RC) LRUENT 


Conclusion. 


Lorsqu'on maintient constant l'effectif du grand échantillon, on 
a le droit de considérer la variance comme une perte d'information. 


398 


LA PERTE D'INFORMATION PAR SONDAGE 35 


2/ - Représentation graphique. 


On peut repérer , en coordonnées cartésiennes (4, 8 ) avec : 


a =Him = V(X.) 


BE mX,= ENV 22 


L'axe Où porte les points représentatifs 
de la première phase du sondage ; les 
écarts le long de cet axe sont des pertes 
d'information. 


Pour m = Cste, on vient de voir que les 
différences Ÿ (XL) - V(X:), c'est-à-dire les 
écarts, parallèlement à l'axe des $f, sont 


également des pertes d'information(enpar- 
iculier pour m = LH : sondage stratifié limite) : ces verticales (ycom- 


ris l'axe des B) sont des "'génératrices d'information. 


x 
m 


3/ - Recherche d'une seconde famille de génératrices 
(n, = constantes) 

On va maintenir les n; constants et faire varier m (à partir de 
mn =, qui correspond à X, = X.). 


VS 
» 
N 
: 
© 
al 
il 
——— 
IS 
11Q 
N 
RE 
MA 
ke 
E|F 
Th 
= 
+ 
LA 
as 
se 
Ar 
| 
FITF 
1 
Ce 
le 
(= 
ZRES 
BI 
' 
ES 
ae 


RS ee 72 pi 
: b - 1 P,(, FL U,- 1 pc {à H:/| 


4/ - Conséquences. 


Lorsqu' on figure un sondage à deux phases par un grillage (a, 
} ) et qu'on porte les longueurs & = VX, B=VX, sur les deux axes, on 
anivVX,=a+8, nia+$B+Yy, mais : 
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avec 


1 1 
ARR GEL CENT | = - 1) 
Y mi = | 2 P, + he 1 @ [Un m U 


a) Il arrive que les p, soient tous égaux, soit p, = p; au- 
quel cas on a : 


= ) o bn 1-1) 
P pÈp LE Dh 


o°Y af poi-À | 
< P 


équation d'un paraboloïde hyperbolique dans l'espace euclidien (a,B, 
Y). Avec à = B = 0, on retrouve l'axe des $ (sondages stratifiés limi- 
tes). En revanche, si n, = LU, quel que soit h, il vient : Y = «(2 poñ/ 0°) 
qui se projette sur l'axe Où mais n'est pas cet axe). 


[D'où : 


alors qu'on s'attendait à ee LS = a. En réalité, on a : 2 n,=h , donc 
m=h, M, =, donc a=0]. | 


d'où 


VX,= 0 +6 -Y = al px, - %) /0°] 


Ainsi, si p,=p, il existe une image métrique euclidienne du gril-" 
lage du sondage à deux phases, analogue à celle du sondage à deux de-, 
grès, mais l'information (perdue)est à +8 -Y , au lieu de a +8 +Y. 


b) En généralles p, ne sont pas égaux; et l'équation en «,$, 
y n'existe plus. 


On retrouve le même phénomène que pour le sondage à deux de- 
grés (où en dehors du cas où v, = V, l'image euclidienne demande des 


conventions adéquates). 


On peut toujours poser : 


DE ponte b = > p,0; 
h h h 
2 
HO il l 
avec : A SAR LE 
Pn = Ps Hh= ( 1) 
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a 


où O?Yy =a(b-8$') 


iquation d'un paraboloïde hyperbolique; les génératrices ( «x = cons- 
antes) correspondent à m constant; celles ( B' = constantes) corres- 
! ondent aux n, constants. Mais la perte d'information symétrique 


ve est a +B -y et non Cane 7 


| Avec L (= 1/p) strates, il faut utiliser (L +2) dimensions (a 8, Y) 
|t une surface d'équation 


2 


o°Y 


aœ(b -2 Br /pr) 


Il'où la perte V ee ER +E BY 
On voit facilement que &(X. - x) (=) 0 
L &(X1- %) (X, - X,) > 0 


Peut-on parler du gain d'information dû à une stratification complète ? 


| Lorsqu'on peut stratifier toute la population, on ne fait pas de 
iondage à deux phases : au sondage stratifié d'effectifs n, correspond 
la perte d'information V X.. On vérifierait que VX, - VX,=a-7y est po- 
itif. On peut considérer que cette différence mesure l'information ga- 
mée à stratifier, ou plutôt la perte d'information (à partir de X.) due 
|. une stratification ne portant que sur m unités (au lieu del). 


Ce type de question sera examiné au Chapitre VII, IIème partie. 


II - INDICATIONS SUR QUELQUES AUTRES PLANS - 


Ona signalé au Ch. II l'intérêt qu'il pouvait y avoir parfois à fi- 
zurer une famille de plans de sondage sur un treillis en quelque sorte 
bléthorique; d'autre part on connaît la forme générale des pertes d'in- 
lormation (sous certaines hypothèses restrictives, Ch.IV); disons un 
mot de la variance d'échantillonnage d'estimateurs sans biais relatifs 
\ des méthodes de sondage (assez courantes) sortant plus ou moins du 
:adre du chapitre V. 


1/ - Sondages stratifiés "optimum", 

Soit une suite de plans de sondage stratifiés dont chacun est "op- 
imum''au sens de Bowley, Neyman ou Yates, l'effectif ou le coût dé- 
:roissant régulièrement; on peut représenter cette suite en portant VX 
sur un axe (voir Ch. V, fin du $ Il). 
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On peut également repérer les points (opt nt) sur le treillis des 
sondages stratifiés correspondants, sommets d'une "trajectoire" en 
ligne brisée qui n'est pas un axe d'information (voir Ch. III, $ II. 5.b). 


% X est combinaison linéaire des pertes par strate et vérifie la 
relation de récurrence. 


2/ - Stratification a posteriori. 


Sur le treillis précédent on envisage’ des ‘surfaces d'onde" 
(£n, = n); sur chacune d'elles on donne une distribution de probabilité 
pour l'estimateur X. et la variance VX.; la taille n de l'échantillon 
étant donnée, les n, sont aléatoires (tirage au sort de l'échantillon dans 
une urne où toutes les strates sont mélangées). On pose & VX, = p(X). 


Si certains des n, sont nuls (X, indéterminés), on convient à 
l'avance de l'expression à donner à X. pour qu'il ne soit pas indéterminé 


(sans introduire de biais). 


Ici encoreilest clair que p(X) est combinaisonlinéaire de pertes 
par strate &(VX,) et vérifie la relation de récurrence. 
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CHAPITRE VII 


LES INFORMATIONS SUPPLÉMENTAIRES 


I - LE CHANGEMENT D'ESTIMATEUR - 
À - GENERALITES, 


1/ - Rappel de la technique classique. 


On sait que, pour un échantillon d'ores et déjà tiré, le choix 
l'un estimateur plus efficace que l'estimateur courant (construit avec 
le seul plan d'échantillonnage : probabilités de tirage, effectifs, etc.) 
lest rendu parfois possible grâce à des ‘informations supplémentaires". 
Les cas habituels sont : 


- l'estimation par ratio (ou par quotient); 
- l'estimation par une formule de régression; 


- l'estimation par une formule de stratification (a pos- 
ltériori). 


| Ces dernières années Zarkovié a ajouté à cette liste l'estimation 
par différence (Réf. Z1). 


Dans tous ces cas, on se propose d'estimer pour une population 
Honnée une certaine moyenne x d'une variable X, alors qu'on a des in- 
formations sur une variable Y en corrélation étroite avec X. Rien 
n'empêche de substituer à x et X des expressions & et Z plus générales. 


Même lorsqu'il est question de strates, elles n'interviennent 
qu'après coup. Aussi peut-on supposer (pour simplifier) que le sonda- 
le est à un seul degré, sans strate, avec probabilités égales (treillis 
réduit à un axe, commun à tous estimateurs). 


On connaît, non seulement les x; des unités-échantillon, mais 


aussi leurs y;i, ainsi que la moyenne y pour la population entière, et 
plus généralement toute la distribution des y:. 
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On indiquera d'autres cas où des renseignements d'une nature 
différente permettent de réduire la variance d'échantillonnage en chan- 
geant d'estimateur. 


On peut rapprocher enfin cette question de celle de l'estimation 
du maximum de vraisemblance et plus généralement du recours à des 
hypothèses sur la loi mathématique qui règlerait la distribution des x;, 
hypothèses permettant de changer d'estimateur et(par là) de réduire la 
variance. 


2/-cProblème. 


A-t-on le droit d'appeler gain d'information la réduction de va- 
riance ? Autrement dit : s'agit-il bien d'une quantité d'information ? 


SiZet Z' sont deux estimateurs sans biais de &, avecVZ >VZ!, 
ilest exact que Z - V Z' est une perte d'information générale (au sens 
des ch.Il et III). Mais il n'est pas en général exact que ce soit égal à 
&(Z = Z1)°, 


Or, il importe assez peu que (VZ -VZ!) soit une information dans 
l'optique d'une suite de plans de sondage d'une famille F, alors qu'on 
a changé d'optique et qu'on n'envisage qu'un seul plan(et même un seul 
échantillon). Cen'est plus en augmentant la taille de l'échantillon qu'on 
passe du point Z au point Z'. Il n'en serait pas moins intéressant de 
pouvoir représenter ZZ' et & par trois points alignés, Z - VZ' étant 
la distance (ZZ'), mesurée avec la même métrique que (© Z) ou (ZZ'), 
c'est-à-dire &(Z - Z')°. 


On dirait alors que (VZ - VZ!') est l'information supplémentaire. 

Dans les divers cas étudiés s'est retrouvé le résultat que voici. 
THEOREME - 

Si l'estimateur Z' est substitué à Z, l'un et l'autre sans biais, 
avecV Z'<V7Z,VZ -%VZ'n'est pas en général une information sup- 
plémentaire, à moins qu'on n'ait : 


EPA ER CAMP AN NET 


En effet, si l'on convient de poser, comme définition de l'infor- 
mation supplémentaire : 


DAS VAE(Z 7 


c'estcette relation qui exprime l'orthogonalité des deux vecteurs aléa- 
toires CZ'et Z'Z. 
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Suivant les problèmes traités, Z' est bien déterminé ou au con- 
‘raire dépend de paramètres, par exemple linéairement (auquel cas on 
‘onsidèrera un point Z' décrivant une multiplicité linéaire). Nous re- 
viendrons plus loin sur le cas où Z' est biaisé. 


l 


3/ - Exemple. 


Supposons tiré un échantillon d'effectifs n, dans chaque strate 
notations du Ch. V). Parmi tous les estimateurs linéaires sans biais 
:1=2 À,X, dépendant des À, liés par L,À\,X, = x, l'estimateur de va- 
riance minimum Z° seraittelque d[VZi+uLA,x,]=0 (LH de Lagrange) 
:e qui signifie que les À, devraient être proportionnels aux n,x,/T4 , 
ivec T? = VOS /Vh - 1. 


| Les informations supplémentaires à connaître seraient ici les 
1? /X, ou (si tirages bernoulliens) les 0/%,. 


| Pratiquement (depuis Bowley) on pose À;,= v, /V pour éliminer 
- biais avec des poids indépendants de la variable X étudiée, en l'ab- 
sence d'informations supplémentaires; posons Z =2 V, X,/v; 


DZ ARUZ" (>0) 


représente l'information perdue faute de connaître les 1° /X,; alors que 


VZ\ = OZ (x 0) 


1e devrait pas être tenu comme un gain ou une perte d'information faute 
‘user des poids (v,/v). 


Remarque. 

| Supposons les n, choisis (à la Neyman) proportionnellement aux 
me, N C,) d'une certaine variable X. L'estimateur de Neyman cor- 
respond à À,= V,/V ; alors que l'estimateur de variance minimum cor- 
“espond à À, proportionnel à 


Mer NC: 


Ja coïncidence exigeant que le coût moyen d'enquête par strate C, soit 
inversement proportionnel à (v, da 1 Va -1);- en gros à Ÿ:: carré du 
‘oefficient de variation par strate. 


Ceci est à noter,d'autant plus que l'optimum au sens de Neyman 
le concerne jamais qu'une variable particulière X;or cet "optimum" 
hinimise la variance d'un estimateur très particulier:celui qui reste 
fans biais pour toutes variables X; après quoi un estimateur Z° devrait 
tre substitué à Z. 
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4/ - Retour au cas général. 
1ère interprétation. 


Dans l'espace euclidien auxiliaire où C2 représente V Z, figu- 
rons par Z' l'estimateur de & obtenu grâce 
aux informations supplémentaires. 


supposons PARA 


2 mais D AEEILERE(ZT EL} 


Soit Z° la projection de & sur ZZ', c'est-à- 
z dire VZ°le minimum de V2", 


AE VAE) C0 A 


&(Z°-C) +6(Z -Z) 


V Z 


Par analogie avec la relation de récurrence de l'information 
d'après Schutzenberger, on dira que : 


E(ZUIZ ou eZ ZA) 
est une perte d'information par rapport à l'estimateur Z°. 
En revanche, 
VA VAE SZ Z') DCIZE RAA 
ne sera pas considéré comme une information supplémentaire. 


2ème interprétation. 


Dans l'espace euclidien auxiliaire où CZ représente YZ, les 
points © Z° Z'Z sont alignés. La distance 
Z'Z est mesurée par Ÿ Z - VZ'! mais non 
par &(Z - Ze. à moins que Z' ne coincide 
CNT Z' Z avec Z°. 


Onne considèrera donc pas la droite € ZOZUZ comme untvérites 
ble axe d'information L). 


(1) Construire un triangle CZZ' avec CZ =VZ,CZ'=VZ!, ZZ'=6(Z - Z'Ÿ n'est 
possible que si le coefficient de corrélation entre Z et Z' est compris entre 0 
et une limite supérieure au plus égale à 1 (cas VZ = VZ'). (espace euclidien). 
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B - ETUDE DE CAS OÙ LES DEUX ESTIMATEURS SONT 
SANS BIAIS. 


On retrouve le triangle rectangle & Z°Z ou plutôt xX°X dans les 
cas suivants : 


1/ - Estimation par différence. 


L'estimateur par différence (de Zarkovic) X est tel que : 

KR Se Se Ÿ 

Il n'y a ici orthogonalité que dans un cas particulier : 
bas p = did 

| bien que la variance soit réduite dès que : 
p > 0,/ 20, 

I1 suffit d'écrire la relation bien connue : 
p & = bo, 


où b est la pente de la droite de régression de x en y, pour voir que la 


structure particulière pour laquelle il y a gain d'information au sens 
strict est celle où 


2/ - Estimation par ratio : X°=Xy/x 


On supposera d'emblée que le biais est négligeable (si non nul), 
lc'est-à-dire : 


LÀ ral SD 
c'est-à-dire b=x/7y 


qui signifie que la droite de a es de X en y passe par l'origine. 
C'est le cas où la variance ? X° diffère très peu de : 


vx. (+ : | % X(1- p°) 


(égalité rigoureuse si la distribution XY a la structure du N°3). 
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3/ - Estimation par régression : X° = X + b(y - Y). 

On s'en tient au cas ‘'idéal'' où b lui-même est connu (et non une 
estimation B sur échantillon) tout en postulant que la distribution à deux 
dimensions (x,y, ) a la structure particulière suivante : 

- la distribution des y; est quelconque; 

- la droite de régression de X en y est quelconque : x = a + by; 
-onaX=a+by, +08 avec 6 9=0; &Ÿ= 1; 

- la distribution de $ est indépendante de celle de Y; 

- 6; dépend de y;. 


On a alors à nouveauVX° = VX (1 - p° Ye 


4/ Sondage bernoullien avec identification. 


On désignera ainsi le cas où les boules portent un signe distinctif 
(un numéro d'identité) permettant de reconnaître, parmi n boulestirées, 
celles qui ont été tirées 2 fois, 3 fois, 

Alors on a intérêt à choisir comme estimateur, au lieu de la 
moyenne X,, le rapport suivant : 


x° = total des x tirés (chacun compté une fois) 
ñ nombre de boules distinctes tirées 

Cet estimateur, qui s'identifie (avec des probabilités diverses) 
à ceux des sondages exhaustifs d'effectif n, n - 1, n - 2, ... est évi- 
demment sans biais; et sa variance est une combinaison linéaire des 
variances desdits estimateurs exhaustifs, soit : 


Ve » Vs VF .… 


On trouve ainsi : 


+ 

vx°= = +3 _. Mt ne _ Sn 

vx°- LV, +7 — V, +6 WE 2C 2) V, Abe EUR = Ô) v 
VXS= LV +15 _ V, +25 D V;«F10 iv, +02. V 
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Le coefficient de Vi sur la ligne VXS est la probabilité de tirer i 
boules distinctes en n tirages. D'où (en explicitant) : 


VX. = . = VX 

2 2 2 
, sv À - s- _. VX, 
vx = T. 22 man 


: et ainsi de suite indéfiniment. La formule générale est : 


| VX= EL LV +a,(V-1)V, +a,(v-1)V-2)V, + VE) (EN EN) VAI 
Mavec : a, = 2" - 1 

Be (3 0-2 +1)/2! 

A (D 305,2  -,1)/3: etc. 


Le fait que les boules portent un signe d'identité apporte bien une 
_ information, c'est-à-dire que la différence des deux variances 


VX VS 


_ est égale à &(X, - X9), autrement dit : xX9 et X,X° sont orthogonaux. 
| En effet : 


Raisonnons dans le cas où n = 4. Supposons qu'on ait tiré (a pe 


d),ona X = X°, Sion a tiré au contraire (acc d), onaX° - TE. 


Mais à cet X°, correspondent trois x distincts, équiprobables : 


2a+tc+d EL AS nie | ac +2d 
4 d 4 ; 4 


On a évidemment : 


A EEIC RAA 0 
3 4 ne 


PACA GLE 
d'où suit l'orthogonalité, et le gain d'information. 
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X° est la projection de x sur la multiplicité linéaire 
MK FES PE (LEE 


en désignant par xi, x., les x des boules tirées plusieurs fois. 


j? 


5/ - Estimation du carré de l'écart-type (avec ou sans la vraie 
moyenne). 


La question suivante nous a été posée (1956) par M. Fonsagrive, 
pour les sondages bernoulliens. 


On possède un échantillon, avec lequel on estime le 0° de l'urne-mère. 
Quelle information m'apporte-t-on si l'on m'apprend par ailleurs la 
vraie valeur de la moyenne de la population ? (plus correctement : de 
combien est réduite la perte d'information ?) 
a) Si X = U, est connu, on a un échantillon de n valeurs 
2 
Zi = (Xi -U) 


dont la moyenne Ze Si (Xi u,)/n 


. age: 2ss 2 . 2 : 0 4 
estime sans biais © = 6°, avec la variance (où ©; désigne H,-0O ) 


o’/n tirages avec remise 

VZ= 2 : : 
OHEVISEN tirages sans remise 
en VS il 


; b) Si x = , n'est pas connu, mais estimé par X, onestime 
OC par 


1) Faisons tendre V vers l'infini; on sait, cf. Ch.I, $ III8 a (cas 
du sondage bernoullien) que : 


VY =VZ +20" /n(n- 1) 


Donc 26‘/n(n- 1) est la réponse à la question posée; sous réserve qu'il 
soit bien justifié d'appeler "information" cette réduction de variance. 


2h91 .Vresthfini, son SA (CCR IS III 8 b). que V[(v- 1)Y/v] est 
de la forme : 


AO 0 
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et on montre facilement que À > 1, B > 0 (dès que V>2,n > 2), de 
sorte que la connaissance de HU: réduit la variance de : 
(A*- 1)VZ + Bo* 


sans qu'on puisse considérer comme pleinement justifié l'emploi du 
mot ‘information pour désigner cette expression. 


1) Dans le cas des tirages avec remise (ou si V est infini) on va 
vérifier qu'on a bien : 
2 


UV DZ -6(T-7) 


En effet il suffit d'établir que 


& 
NI 
Il 
Q 
[e] 
< 
| 
NI 


ou encore & =6YZ 
2 \2 
On a : 67 =6 Sri 
n 
AL PÉDALE LA Du z;) 
n - n? 


car le développement de S(z; - z;)° comprend n(n - 1) fois (z; z;); donc 
dans Y figure une fois seulement le terme (7; z;). Il vient : 


= — 2\2 2 . 2. 
sy z = el 5 7 Se SE ace DT 
n n°(n - 1) 
et l'espérance du second terme est nulle puisqu'il est de la forme 
NTEZ z), avec : 


6212,-67% CEE 6 z,=0 Cd sd 


2) Mais dans le cas des tirages sans remise, on montrera qu'il 
n'en est plus ainsi, sur un simple exemple : 


n = 2, v=3, ZA, DC: 


2 2 2 
— 2 + p2 b2 + c2 c2 + a2 
6 72-=| 2 RC SR En | 
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D'autre part,en substituant vY/ Vs sy pour n'avoir pas de 
biais, on a : 


V —— _3la?+hb (a-b} 
6 = |, eee 
Ter ee | à ie ee 


2 + 2 
6 = ER + (a*- 6a7b + 2a/b?- 6 ab/+b)+... 


Et il n'y a aucune raison pour que les seconds termes, soit 


[(a - b)* - 2(a + b)’ab] 


s'annulent. 


Conclusion. 


La connaissance du premier moment apporte un gain d'informa- 
tion si les tirages sont bernoulliens, une réduction de variance s'ils 
sont exhaustifs. Le vocable ‘information apparaît finalement comme 
assez dangereux par les interprétations abusives qu'on serait tenté de 
lui donner dans les comparaisons entre estimateurs. Il n'est pas tou- 
jours facile de discerner une famille d'estimateurs Z' dont Z fait partie 
et dont Z° est le point le plus proche de & ; elle nous échappe dans les 
cas n'4 et 5 ci-dessus. 


C - COMPARAISON ENTRE ESTIMATEURS EVENTUELLE- 
MENT BBIAISES. 


1/ - Généralités et Rappels. 


Tant que le biais était nul ($ À et B), variance et perte d'infor- 
mation étaient pris l'un pour l'autre; alors qu'en fait tout multiple de 
la variance est perte d'information symétrique, sans oublier l'existen- 
ce des pertes d'information asymétriques; ces points prennent quelque 
importance pour les estimateurs biaisés. 


Ona vu (Ch.IV, $ II) que la notion de perte d'information ne s'é- 
tendait qu'aux estimateurs qu'on peut appeler uniformément biaisés; et 
on sait calculer les pertes d'informations correspondantes dans des cas 
suffisamment étendus en pratique,notamment le cas dit isomorphe. 


On a rejeté par conséquent, comme insuffisamment fondée, la 
technique qui consiste (pour estimer & ) à comparer la variance V Z' de 
l'estimateur Z' sans biais et la somme (VZ + b’) de l'estimateur Z af- 
fecté du biais b. Peut-être cette technique avait-elle son origine dans 
la théorie classique de l'estimation oùd(dans lecas régulier) on démon- 
ireique 
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DZ H bis C(Z -09° 


est supérieur (au plus égal) à 


db’ 
(+ er 


théorème que, pour b = 0, se réduit à l'inégalité bien connue 
VE» 1L/n TE: 


Parmi les pertes p(Z) (où niVZ, niVZ + b°ne figurent), on a 
besoin à présent de savoiren choisir une qu'on puisse le plus valable- 
ment comparer à VZ'; soit p. 


Il n'est pas évident d'abord que p doive être symétrique. La 
technique des sondages nous conseille même, pour l'estimation d'un 
ratio, de faire jouer un rôle privilégié à une expression asymétrique 


(Ch.IV, $ II. 8). 


On peut tenir pour sensé le principe que, si Z se rapproche in- 
finiment de & (soit n—>Vv , soit n ——> «) p(Z) devrait être celle des 
p(Z) qui a le contact le plus élevé avec TŸ Z (principe mis en œuvre 
pour le ratio et la corrélation). Nous traiterons seulement deux 


exemples. 


2/ - L'estimation par le ratio. 
Par rapport aux notations du $ B.2,on a : 


CU =Xx, LAERT ZL=XyIX 


F2) = Py + 
Y4 
Il est évident (mais utile à rappeler) que 
P(k Z) = k/p(Z). 
Il vient donc 


+ TES Q 
p(Z) = YPp| — 
Y 


il 
| 
ER 
CRIER 
D < 
@ 
CHET 
[] 
<1 |K] 


(cf. Ch. IV, $ IL.8). 
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ou en posant Dee or vY 


De Ce Co y, Yu= GE NEO VE: 


HARAS avr : = 
D'où : p(Z) <v2Z! si AL PA" 


On retrouve en toute rigueur le résultat approximatif classique 
avec les variances. 


De même ,on a : 


2 
o 
HER AE CE É à CZ '(LETRE) 


SI IX 


Le minimum de la perte d'information est atteint quand le rayon 
vecteur du centre de gravité coîncide avec la droite de régression de 


Xeny(po/o'=x/y). 


3/ - L'estimation par régression. 


Si les axes sont translatés sans modifier la pente de la droite 
d'estimation (passant par (X, Y), il est clair que la perte p(Z) ne doit 
pas se modifier (idée que nous devons à M. Fonsagrive). Donc sila 
droite d'estimation a pour pente 


(x/> = po /o'}, 


\ 


la perte demeure : p(Z) =VZ'(1-p°) 


Et si cette pente est x/y = t, la perte demeure 
o 2 
_— 2 
HZ) =24(1-p*) + ot(t-o ©) 


Supposons cette pente t elle-même aléatoire (soit T), déterminée 
par l'échantillon tiré; alors p(Z) est aléatoire. C'est notamment le cas 
si t est l'estimation(biaisée)de b par les moindres carrés 


_RS RSS! 
ane SE 


Alors p(Z) n'est plus(à proprement parler)perte d'information, non 
plus que son espérance.- Mais l'espérance relative à l'estimation iso- 
morphe de t par T est calculable (Ch. IV, II, $8) : 
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log t = log (PO O') - log 0!'? 


At "h(pod) ot: 


t p oo! Où 
2 

= RSS ST 
LE = t?6 C4 = 
P(T) E Sr | 


Alors on posera : 


RAR PATENETRS cr] 


Les deux cas traités (Ratio, Régression) semblent suffire à don- 
ner une idée des simplifications que la méthode de la perte d'informa- 
tion introduit par rapport aux calculs classiques de variances(sans 
nécessiter ni approximations, ni hypothèses spéciales sur la structure 
des distributions). 


4/ - Gain d'information est-il correct ? 


On retrouve le problème discuté déjà en A et B sous une forme 
généralisée : p(Z)et p(Z') étant finalement des distances (CZ) et (TCZ'), 
peut-on interpréter |p(Z) - p(Z')| comme une distance (Z Z') ? Si les 
treillis de Z et Z' sont réduits chacun à un axe, peut-on les représen- 
ter simultanément par deux axes de même origine £ superposés ou 
sécants ? 


Reprenons les cas (B.2) de l'estimation par ratio et (B. 3) de la 
régression, le paramètre t permet de décrire la multiplicité linéaire 
dont font partie X et X y/Y et où x se projette en X°; 1 -p? = sin?8; # 
est l'angle de x X et x X° (première interprétation :les pertes sont les 
carrés des distances euclidiennes). 


Ainsi, quand les pertes sont des distances euclidiennes (2ème 
interprétation) onne doit pas superposer les trois axes (Z) (Z') (Z°) de 
crainte d'interprétations abusives. D'ailleurs il n'y a plus de raison 
de vouloir considérer la distance (Z Z') comme égale à &(Z - PAU puis- 
que (CZ) n'est plus VZ,; d'ailleurs on ignore quelle expression convient 
pour (Z Z!) 


Conclusion. 
Z' Les informations supplémentaires don- 
Z nées conduisent au partage de la perte d'in- 


formation p(Z) en deux composantes dont 
une irréductible : p(Z°). On peut les figurer 
sur deux axes sécants d'origine © substitués 
£ 7e à l'axe unique. On peut considérer la figure 
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formée d'un axe unique & Z° et d'axestransversaux Z°ZZ' dont chacun 
correspond à un effectif donné de l'échantillon (il n'existe pas de se- 
conde famille d'axes),. 


(ZZ'}est un gain ou une perte d'information suivant les cas, mais 
ne signifie en général rien d'autre que p(Z') - p(Z). 


D - CAS OÙ L'ON A DES INFORMATIONS SUR LA LOI THEO- 
RIQUE DE DISTRIBUTION. 


1/ - Généralités. 


Jusqu'ici la théorie ne comportait aucun recours à des hypothèses 
sur une loi théorique (par exemple laplacienne) que les variables se- 
raient censé suivre. 


Cette ignorance de la loi théorique de distribution est propre à 
la théorie des sondages; elle se justifie du fait que les populations son- 
dées (au cours des enquêtes sociales, économiques, culturelles, etc.) 
fournissent peu d'exemples de distributions statistiques remarquables. 


Beaucoup de sondages sont occasionnels et on ignore (avant 
d'avoir fait l'enquête) qu'on va sonder par exemple une population dis- 
tribuée suivant une loi de Galton. Les enquêtes périodiques, même, 
offrent peu de possibilités, pour la raison qu'un questionnaire permet 
de recueillir sur chaque unité (i) des données X,; Y; ZT; etc. dont le 
nombre dépasse parfois la centaine : si le montant X des revenus de 
l'unité statistique (le ménage) suit une loi de Galton, il y a peu de chan- 
ces que Ÿ, Z, T, etc. soient dans le même cas. 


On évite donc de faire un plan de sondage conçu en vue d'une va- 
riable X privilégiée. Mais il est tout indiqué d'employer les informa- 
tions qu'on peut avoir sur la structure de la variable X, à construire 
des estimateurs spéciaux pour les paramètres de la loi de distribution 
de X. On ne le fait guère : et d'abord parce que l'emploi d'un plan de 
sondage stratifié, à plusieurs degrés, etc. bien adapté rend les calculs 
difficiles et d'ailleurs peu rentables. 


Toutefois Aitchison l'a fait (Réf. UTTING-COLE, 4ème partie) 
pour une distribution présumée être de Galton, en appliquant un résul- 
tat de Finney (Réf.) à un sondage de l'Institut de Statistique d'Oxford 
(sondage supposé bernoullien). 


2/ - Cas où l'échantillon a un grand effectif. 


En admettant le plan de sondage simplifié ainsi à l'extrême, il 
convient encore de distinguer le cas où l'échantillon est assez grand 
pour rendre valables les résultats asymptotiques bien connus de la 
théorie de l'estimation.(On reviendra au n° 3 sur les autres cas). 
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On sait qu'alors l'estimation Z° du maximum de vraisemblance 
est sans biais appréciable, donc sa variance est pratiquement une 
perte d'information; et dans le cas régulier de Cramer (Réf. ) 1/n H (H 
défini au Ch.IV, II, $ 9) est le minimum (asymptotiquement équivalent à 
V Z°) de toutes les variances d'estimateurs sans biais possibles VZ 


= 


construits à partir de la loi de distribution. 


Tout ce qui est dit(en A et B) sur Z° (1ère interprétation géomé- 
trique notamment) est valable; à ceci près qu'il ne s'agit plus d'une 


multiplicité linéaire Z; que la corrélation Ve entre Z et Z° remplace 
VI + (où p désignait p,,); que Z°, Z, (Z - Z.) ont des lois-limite de 
Laplace-Gauss,ce qui entraîne 
ÉTENZ NZ OT 
En particulier on peut avec Fortet (Réf.) distinguer trois cas : 
1) Il existe pour € un estimateur sans biais 
ZiS1S Ze 
2) Il existe pour une fonction t (C) un estimateur sans biais 
Sn 


3) Le cas général régulier, où existe l'estimateur Z° (faute de 
mieux). 


Remarque : Le cas non régulier. 

Dans une communication à l'Institut International de Statistique 
(1957), Alan Stuart signale des travaux récents(1) (1946 à 1952) con- 
cernant le cas non régulier, c'est-à-dire celui où, les conditions de 
régularité du 3ème cas n'étant pas remplies, l'estimation Z° du maxi- 
mum de vraisemblance cesse d'exister ou perd ses droits. Il existe 
alors des cas où (l'estimation Z° n'existant pas) la variance de toute 
estimation ne peut descendre en-dessous d'une certaine limite qui est 
plus grande que 1/n H et qui peut jouer un rôle analogue à V 7°, 


3/ - Cas où l'échantillon est de taille médiocre. 


Les cas (1) et (2) ci-dessus restent inchangés. Mais au cas (3) 
%Z° n'est plus une perte d'information, Z° étant biaisé. On peut lui 


(1) Bhattacharyya Sankya, 8.1, 1946. 
Chapman & Robbins Ann. Math. Stat. 22(581) 1951. 
Kiefer Ann. Math. Stat. 23(627) 1952. 
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faire correspondre entre autres la perte \H/n et plus généralement 
&W [Z] avec [cf.Ch.IV $SII7] 


W = [Z] - & (K] +2A;(a;- A;) 
en posant & y, = Ÿ at = 0, Sy;/n = Ÿ AZ = 0 


o 


(On écrit Z au lieu de Z°, car il n'est plus vrai que p(Z) soit minimum). 


Posant de même PAC) =nt (da na, Tr) 


* 


HS À, doit 


5 Z] 
et supposant la fonction f dérivable, on aurait 


OM sn of à 


À; 


qui, pour Z =Q se réduit à À, = of/0a; 

d'où 
+ af 

W=f -f+ D (a; VA) 
J 


Toute fonction f convient alors, pourvu toutefois que la condition de 
convexité soit remplie : 


2 
y DJ É ns ke à 
. À sas, (A; a.) (A,- a,) définie négative. 


of 
Toutefois il est exclu qu'on ait ra C!' : W serait identique à 0. 
j 


Plus intéressant est le cas où f est elle-même une forme quadratique 
f=xES b,, a;a, 


définie négative. D'où : 


W=2Zb,,(A,- a,)A, 

On notera que VEN) ETS COL A;a, (=0) 
Y 0 SHC Nine 

d'où Ye Les Aie) À: 
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j+h 
Lorsque les b.; sont C', on retrouve donc 
& W = Han; 


qui correspond à. 


il 


(Voir Ch.IV, $II, 9). 


Il serait beaucoup plus utile de connaître une expression de perte 
qui (pour n infini) serait asymptotiquement équivalente à 1/H n (comme 
l'est la variance de Z). Nous ne connaissons que 


W=1Ÿ2/H° 
Des recherches ultérieures seraient nécessaires. 
II - LE CHANGEMENT D'ECHANTILLON (àtaille ou à coût constant) - 
A - GENERALITES. 


Après l'étude des suites de plans de sondage (d'une même famille) 
à effectifs décroissants, passons à la comparaison de plans de sondage 
(x), (x') appartenant à des familles distinctes. 


s 


Ces comparaisons n'ont de sens qu'à effectifs constants(1) ou à 
coûts constants. 


Avec la méthode classique des sondages, la variance d'échantil- 
lonnage est employée constamment pour comparer la qualité de 2 (et 
plus) estimations du même paramètre C ; il s'agira : 


- d'un même estimateur, employé avec des méthodes dif- 
férentes de tirage de l'échantillon; par exemple avec une urne unique, 
on comparera les variances relatives aux tirages avec et sans remise 
des boules tirées dans l'urne; 


- d'estimateurs différents, appliqués (sans changer la 
structure de sondage) à des échantillons tirés au sort par des procédés 
différents; par exemple avec probabilités égales d'une part, probabi- 
lités inégales de l'autre; 


(1) À supposer que ceci ait encore une signification. 
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- voire d'estimateurs différents ou non, appliqués à des 
structures de sondage différentes; par exemple quand on modifie le 
nombre de strates, les caractères stratificateurs, le contenu des uni- 
tés de sondage, ... bref le "découpage" de l'univers sondé. 


Les problèmes du premiertype sont d'ailleurs assez particuliers, 
l'absence de biais 


&Z ÆOLANE= le 
étant postulée. 


Il serait commode (et satisfaisant pour l'esprit) de pouvoir par- 
ler du gain d'information relatif à l'emploi de Z au lieu de Z' pour dé- 
signer la différence (positive) &(Z' - Z} 


Mais il n'y a en général aucune raison a priori pour qu'on ait le 
droit de parler ainsi, c'est-à-dire de traiter cet écart positif comme 
la variance : 


GUZN 7) 


Bien entendu, il est exclu que les deux échantillons à comparer 
soient indépendants, auquel cas on aurait : 


ELEL-Z) =VZ'EVZ 
au lieu de : 
e(Z'-Z} =vZ'-vZ 
En fait quand on écrit cette dernière relation, autrement dit : 
&[(Z'-Z)(Z-c)]=0 (1) 
on suppose l'existence d'un champ de probabilité sur lequel sont définis 
simultanément Z et Z', étant entendu que la loi de probabilité de Z (quel 


que soit Z')et celle de Z' (quel que soit Z) sont imposées. Le symbole 
& se trouvera du même coup défini. 


Que signifie exactement (1), condition d'orthogonalité de &£Z et 


VAT ÉN 


Sauf dans le cas de distributions particulières, il faut considérer 
que -,une fois l'échantillon tiré avec le plan de sondage n -,les (Z -C) 


sont des constantes quelconques et qu'il est nécessaire (et suffisant) 
d'avoir : 
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E(Z')=2Z 


où E désigne l'espérance mathématique lorsqu'est connu le grand échan- 
tillon (d'où on déduit la valeur Z). 


On peut interpréter également (1) comme : 
&(Z'| Z)=2Zz 


c'est-à-dire espérance mathématique liée par la connaissance de la 


valeur de Z; ces points de vue ne sont pas tout à fait équivalents : 
quand on entre dans le domaine des grands échantillons (population 


très nombreuse elle-même, les tirages pouvant en outre être avec 
remise), il est bien naturel qu'on puisse retrouver plusieurs fois la 
même valeur de Z. Enfin Z et Z' peuvent avoir une loi-limite, l'échan- 
tillon devenant infiniment grand; auquelcas la formule est forcément : 


S(Z'AlZ)=2Z 


A supposer l'existence de deux lois-limites de Laplace-Gauss, 
avec VZ' >%7Z, l'ellipse de probabilité de la loi de (Z Z') doit admet- 
tre la première bissectrice comme diamètre conjugué de la direction 
verticale. 


En dehors de l'hypothèse (n w), la distribution commune (Z Z'), 
doit admettre comme courbe de régression de Z' en Z la droite d'é- 
quation Z' = Z; autrement dit, on doit avoir 


LEZ avec 6 (3. Z)=0 


(et & $ = 0, qui est vérifiée si Z et Z' sont tous deux estimateurs sans 
biais de C ). 


Sauf si nest grand, (E Z'=Z) a la signification suivante : 
Partant d'un échantillon du plan ï% (d'où une valeur de Z), on lui 
fait correspondre un ensemble d'échantillons du plan n', d'où un ensem- 
ble de valeurs Z'. On s'arrange pour avoir : 
E'Z!=Z 
On s'arrange pour que, si l'on opère ainsi à partir de tous les 
échantillons équiprobables de x , on obtienne (un même nombre de fois) 


tous les échantillons équiprobables de x. 


D'ailleurs il suffit qu'une telle opération soit possible (sans 
aller jusqu'à l'exécution) pour qu'on ait le droit de convenir que 
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VZ'-V7Z =6(Z - Z'ÿ. On va rencontrer des cas où l'opération n'est 
pas possible. 


B - 1ère INTERPRETATION GEOMETRIQUE. 
Zet Z' étant représentés chacun dans un espace auxiliaire, avec 
vZ = OM’ et % Z' = OM" 
on pourra avoir : 
MM'*° = OM - OM 
si la représentation de Z' est projetable orthogonalement sur celle de Z. 
En particulier s'il s'agit de représentations à une seule dimen- 


sion, il est nécessaire que les divisions découpées par Z et Z'(sur 
leurs axes respectifs) soient semblables. 


1/ - Quelques cas de représentation à une dimension (estimation 
d'une moyenne). 


Deux divisions d'abscisses o°(v - n/n(v - 1) et o'’(v - n/n(v-1) 
sont semblables et même homothétiques. Sont semblables également : 


(y compris pour V'o : sondages exhaustif et bernoullien) 


NDS EL vo"? (2-1 
kv - 1 \kn kv VE VT V 


(sondages en grappes de même taille k). 


etc. 


2/ - Exemple : Tirage exhaustif et tirage bernoullien, avec n=2. 
Echantillon exhaustif A D Cab) 2 


Echantillon bernoullien (a, b 
(a, a 


X' = (a +b)/2 
XuE (a la)/atera 


Il y a une probabilité v - 1/vV que la seconde boule tirée diffère 
de la première. Il vient : 


2 
& t- GE NET Lace 
(X X) 5 UNE 2 
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Mais tous les couples (a, b) sont également possibles; d'où : 


tea l (bee) Lo. 0. v- 2 
ie ar) | v 2v(v+1) nn | | 


=Vx'-VX 


3/ - Uncas de représentation à plusieurs dimensions (estimation 


d'une moyenne) : 


Tirages exhaustif et bernoullien dans un sondage stratifié. 


Si dans chaque strate l'échantillon bernoullien est déduit - d'un 
échantillon exhaustif donné - par un procédé aléatoire convenable, on 
ae 


CRE) CHE) GS on) 
et, en pondérant par (v, IV et totalisant, - en admettant en outre l'in- 
dépendance des opérations de chaque strate par rapport aux autres -., 
il vient : 
E(X'- X) = E(X' - x) - S(X - x) 
C - 2ème INTERPRETATION GEOMETRIQUE. 


Z et Z' sont représentés dans un espace euclidien auxiliaire , 
avec 


7 OM vZ!' = OM' 
Quand les pertes d'information sont de la forme : 
ILE MO BARETE VZ= Qt Bu y! 
il vient : 
8Z'-VZ={(at-a)+(f"-B)+(v'- Y) 


Ilestclair que, si a' est fonction linéaire de a, de même B'etB, 
y'et y,- alors VZ' - VZ est aussi une perte d'information, et c'est 


&(Z'- 7). 


Exemple : Sondages à 2 degrés. Comparaison des tirages exhaustif et 
bernoullien. Cas particulier où ns =n; W = V. 


a' est proportionnel à 1/m, et à à (1/m - 1/H) 
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B' est proportionnel à 1/n , et B à (1/n -1}/v) 
y' est proportionnel à 1/mn, et y à (1/m - 1/u)(1/n - 1/v) 


On est donc bien dans le cas où VX! -7 X est une variance. 


Remarque. 


Ilest clair que, sile mode de tirage différait pour le 2ème degré 
seul, ou pour le ler degré seul, il suffirait de déduire l'échantillon 
bernoullien de l'échantillon exhaustif par le procédé aléatoire. 


Plus généralement, partant d'une sous-population de (m x n) uni- 
tés distinctes (dont la moyenne est X), on éliminera (par tirages au 
sort équiprobables) unnombre quelconque À d'unités qu'on remplacera 
(partirages au sort équiprobables) par À unités figurant déjà dans l'urne 
et qui y figureront ainsi deux fois), etc 


Ainsi il est possible de construire un échantillon bernoullien à 
partir de l'échantillon exhaustif supposé donné,et de telle façon que : 


E(X'- XP =VX- VX. 
D - LE CAS GENERAL. 


1/ - Iln'y a pas de distance entre deux estimateurs. 


La comparaison des tirages bernoulliens et exhaustifs constitue 
en fait un cas d'exception; car lorsqu'on passe en revue les diverses 
circonstantes courantes où la qualité d'estimateurs Z et Z' se juge en 
étudiant le signe de V Z - VZ', on est forcé de constater que cette 
différence n'est ni +&(Z - ZYe ni tout autre distance entre ZetZ', 
ou entre les plans de sondage (nr) et (n'). En effet (tout en ayant : 
6Z'=6Z = C):(7r') est conçu de façon : soit à avoir VZ -VZ'>0 (en 
tout état de cause, ou bien dans la majorité des cas); soit à réduire le 
coût d'enquête, avec une certitude ou des chances sérieuses d'avoir 
LOS VIZER 7) 00) 


Dans le premier cas, on s'arrange pour que les valeurs de Z les 
plus éloignées de & ne soient pas (ou soienttrès rarement) prises par 
Z'; pour cela certains échantillons E du plan (x) sont impossibles avec 
le plan( r'). Dans le second cas, on arrive au même fait pour une sim- 
ple raison de commodité. 

Ainsi à un certain champ de valeurs de Z ne correspond aucune 
valeur de Z'; et parler de 


V(Z'- Z) = VZ EVZT 2 Cou(Z Z!) 
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ne signifie rien, car Cov(Z Z') n'est pas défini; alors parler de la dis- 
tance (Z Z') risque fort de ne rien vouloir dire. On vise ainsi les cas 
suivants : 


Comparaison d'un sondage systématique ou en grappe et du sondage 
ordinaire; 


Comparaison d'un sondage stratifié et du sondage ordinaire; 


Comparaison d'un sondage "équilibré" ("'balanced sampling'')et du son- 
dage ordinaire; 


Comparaison des tirages avec probabilités égales et probabilités 
inégales, etc. 


Ajoutons que, sil'on compare par exemple deux découpages dis- 
tincts des unités de sondage, ou deux découpages des strates, il peut ne 
plus même exister de champ où Z et Z' soient définies simultanément. 


2/ - Que calcule-t-on en fait ? 


Cependant la technique des sondages nous apprend, connaissant 
l'échantillon E' de (ñ'), à estimer non seulement VZ', mais aussi VZ 
etvz-vZ#(1), On pourrait d'ailleurs estimer VZ et VZ' séparément 
avec deux enquêtes distinctes, avec respectivement un échantillon E 
de (x) et E' de (n');, mais il serait à craindre que l'erreur d'échantil- 
lonnage sur? Z - VZ' (estimations indépendantes) soit plus grande que 
(VZ - VZ')elle-même; en employant un seul échantillon (soit E') on ne 
court guère de risque de se tromper sur le signe même deVZ -vZ!, 


Faisons quelques remarques : 
a) On estime Z' (et non Z) à l'aide de E'. 


b) On estime V Z et VZ'!' à l'aide de E'; mais on ne saurait 
estimer V Z' à l'aide de E (échantillon de x). Donc E' permet de cal- 
culer une sorte de distance entre le plan de sondage (x') et le plan de 
référence (x), et non le contraire. 


c) On sait (souvent)(2) estimer sans biais VZ, mais il ne 
faut pas s'illusionner sur la signification de ces mots : 


(1) Ceci fut pour nous un objet de profond étonnement à la première lecture du 
rapport de R. Jessen sur les sondages agricoles en IOWA (Réf. T1). 


(2) Dans les cas les plus simples, l'analyse de variance fournit un mécanisme 
de calculs correct (du moins en première approximation). 
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Si l'on tirait (du même plan (x') un nombre infini d'échantillons 
E' indépendants, on reconstituerait la distribution théorique de Z' et 
celle de VZ', avec la répartition statistique des valeurs des estima- 
teurs. En revanche la distribution des valeurs calculées pour estimer 
VZ, tout en admettant V Z pour espérance mathématique, ne cofncide- 
rait pas du tout avec la distribution théorique de V Z (telle qu'on l'ob- 
tiendrait au contraire avec une infinité d'échantillons indépendantsE 
du plan f). 


d) On peut toujours écrire &(Z,-C)-6(Z'-©)=6(Z,-Z'Ÿ 
avec 6(Z,-Z')(Z'-C)=0,c'est-à-dire &'[Z,- Z' | Z'] = 0, où&' dé- 
signe l'espérance mathématique dans le champ de probabilités de Z'; 
les valeurs de Z, (pour un échantillon donné de x ') admettent Z' pour 
moyenne arithmétique; puis on s'arrange pour avoir & '(Z; - & ÿ =v2Z, 
sans pour autant que Z , et Z aient la même distribution. 


On voit, en résumé, que (même en s'en tenant aux estimations 


sans biais) les écarts entre pertes d'information se prêtent mal à une 
interprétation simpliste comme distance entre deux points. 
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CHAPITRE VIII 


SUR DIVERS CONCEPTS D'INFORMATION 
APPLICABLES AUX SONDAGES 


I - LA QUANTITE D'INFORMATION DE R.A. FISHER - 


Alors que nous voyons dans 1/n H la plus petite perte d'informa- 
tion qu'on puisse obtenir (à condition d'employer l'estimateur adéquat), 
R.A. Fisher appelle n H l'information contenue dans l'échantillon , 
c'est-à-dire le plus grand gain d'information que puisse fournir le 
même échantillon (du moins si l'on est bien dans le "cas régulier") 
(Réf. Fi). On suppose toujours n très grand. 


Dans le cas de l'estimation simultanée sans biais de deux pa- 
ramètres C,,C, d'une loi de distribution, la perte, d'information 
% (u,Z, + u,Z,) est une forme quadratique; égalée à W c'est l'équation 
tangentielle d'une ellipse; lorsque n est assez grand, Dugué a établi 
l'existence de l'ellipse d'information intérieure à la précédente quels 
que soient Z, et Z,;, son équation est Q = W?; la matrice de la forme 
quadratique Q est ce que Fisher a défini comme étant l'information. 


Tels sont les rapports entre la perte d'information et l'infor- 
mation de Fisher. 


Il - EXTENSION AUX SONDAGES BERNOULLIENS - 


Pour une loi de Laplace, l'estimateur efficace de x =H est la 
moyenne X, la variance minimum des estimateurs est © °/n et l'infor- 
mation au sens de Fisher est n/0?. Ceci s'étend à toutes les lois qui 


admettent un résumé exhaustif d'ordre 1. 

L'idée la plus naturelle est donc de chercher à faire une théorie 
où l'information serait 1/VX, c'est-à-dire n/o° quelle que soit la loi 
de distribution. (n étant quelconque cette fois). 


On serait même tenté d'appeler quantité d'information l'inverse 
(1/VZ) de la variance, quel que soit l'estimateur Z. 
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Si l'on effectue les tirages bernoulliens dans une urne comprenant 
un nombre fini de boules, la définition précédente serait compatible 
avec la formule de récurrence (de Schutzenberger). Faisons deux ti- 
rages successifs d'une boule dans une urne renfermant quatre boules; 
la quantité d'information apportée serait : 


et pour n tirages 


n/o? = 1/VX 


III - CAS DES SONDAGES EXHAUSTIFS - 


En revanche avec des tirages exhaustifs, la même formule donne, 


pour deux tirages : 
L + 6 C) 
[os S; 


où S? désigne la variance des (Vv - 1) boules restantes après le pre- 
mier tirage. 


De l'identité 


v - 1 V 2 
Slt ee — 
= «) vel 


on ne peut tirer la valeur de & (1/5°) mais on peut affirmer en tous 
cas qu'on n'a pas en général : 


et par conséquent qu'on n'a pas : 


il EL 1 V DOVE dk 
Let). L ER 
si ? X 


En résumé : si l'on s'en tenait aux tirages indépendants, on pour- 
rait accepter de transposer l'information de Fisher en théorie des 
sondages, de telle sorte que l'inverse de la variance de l'estimateur 
mesure de l'information apportée par celui-ci. 
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Mais onne peut étendre valablement cette dernière convention si 
l'on passe du tirage bernoullien au tirage exhaustif des échantillons. 


IV - DISCUSSION - 


a) D'ailleurs il n'est pas rationnel de partir du sondage 
bernoullien et d'essayer de remonter au sondage exhaustif. Ce qu'il 
convient de faire, c'est au contraire de poser pour le sondage exhaus- 
tif des définitions cohérentes, puis d'en déduire celles du sondage ber- 
noullien par passage à la limite lorsque l'effectif de la population tend 
vers l'infini. 


b) En outre (mais ceci n'est pas un argument déterminant) 
le concept d'information ne correspond pas, quand on se place au point 
de vue des sondages, à celui posé par Fisher. Si je possède déjà un 
échantillon de 3 000 unités de sondage par exemple, et si j'en prends 
100 de plus, il ne paraît guère possible d'admettre que ces 100 unités 
m'apportent autant d'information que les 100 premières unités qu'on a 
tirées de la population (ceci abstraction faite de toute considération de 
coût). C'est pourquoi, même lorsqu'on tire l'échantillon à la manière 
de Bernoulli, la définition de l'information inspirée par Fisher ne nous 
paraît pas finalement à retenir. 


A cet égard Lindley (dont le concept d'information diffère du 
nôtre) a adopté la même position. L'information ‘'apportée'"' par une 
unité est pour lui fonction concave du rang de tirage. 


Ceci n'empêchera d'ailleurs pas de continuer, comme par le 
passé, à utiliser l'inverse du rapport des variances pour juger de la 
précision relative - ou de l'efficacité(l) comme on dit - de deux esti- 
mateurs, du moment qu'il s'agit de précision ou d'efficacité, - non de 
l'information. 


M - SOLUTION - 


On peut chercher à bâtir d'abord une théorie de l'information 
pour les sondages exhaustifs dans une urne unique. Cette information 
doit - avant tout - satisfaire à la condition générale de récurrence. 
Dr le Lemme 


(1) À noter que Fisher (1922) appelle efficacité, non le rapport des inverses de 
variance mais le rapport des effectifs d'échantillon nécessaires pour obtenir 
la même variance; définitions qui ne coincident que si la variance est de la 
forme a/n (Voir, Stuart. Réf. citée). 
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Gn 
TRS 
is 
[en 
un 
23N 
SEE 
[ 
€ 
11< 
[= 
(@ 
N 


a semblé particulièrement commode pour l'application de la formule 
de récurrence; et cecia conduit à rechercher à repérer le niveau d'in- 
formation par une fonction de la forme : 


t(v, n)=k(v, n)o° 


l'effectif de la population étant v, celui de l'échantillon étant n, © dé- 
signant l'écart-type de la variable x dans la population sondée. 


On appellera gain ou perte d'information l'écart entre deux ni- 
veaux. Ce niveau d'information doit s'élever lorsque n va de 1 à (v - 1). 


Avec un échantillon de taille nulle, on n'a pas d'information du 
tout. 


Avec un échantillon de taille v, l'information est complète, 
totale. rc 


Le problème essentiel est de savoir choisir pour ces deux cas 
extrêmes des repères convenables. Il est naturel de chercher à repé- 
rer par 0l'absence d'information,’ par À ou l'infini l'information com- 
plète. On dira alors qu'on repère ou mesure l'information apportée par 
l'échantillon. 


On va montrer que ce point de vue est indéfendable pour les en- 
quêtes par sondage, avec t(v, n). Au contraire, rien ne s'oppose à ce 
qu'on repère par -® l'absence d'information. On dira alors qu'on re- 
père ou mesure l'information perdue par le sondage. 


VI - IMPOSSIBILITE DE MESURER L'INFORMATION APPORTEE 
PAR UN SONDAGE AVEC t(v, n) - 


Si le choix de l'information reste largement arbitraire quand on 
n'envisage que le sondage exhaustif simple, il ne faut pas oublier qu'on 
se propose d'aboutir à une théorie applicable à tous les plans de son- 
dage communément employés par les techniciens. 


Une autre difficulté est de savoir comment vont se combiner les 
informations fournies par chacune des urnes sondées (strates, sous- 
strates, unités non élémentaires). Cette combinaison est-elle de mé- 
me nature qu'une addition (déduction faite des doubles emplois), ou 
bien qu'un produit ? Mais faire le produit revient à ajouter les loga- 
rithmes et tout dépend finalement d'une convention de langage : va-t-on 
appeler u ou log u l'information ? 
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a) Sondage à deux degrés. 


Considérons un sondage à deux degrés, avec le cas limite du 
sondage en grappe (tirages exhaustifs avec probabilités égales) : si on 
possède une information partielle sur certaines unités primaires et 
une information complète sur certaines autres (grappes entières), on 
n'a pas une information complète sur la population. 


Par conséquent, que les informations apportées par chaque unité 
primaire s'ajoutent ou qu'elles se multiplient les unes par les autres, - 
on peut dire a priori que l'information complète ne doit pas être me- 
surée par +; elle doitêtre exprimée par un nombre fini. On va le sup- 
poser par la suite(1), re 


b) Addition des informations. 


Lorsqu'on effectue des sondages indépendants dans une même 
population, il semble a priori que les informations apportées devraient 
s'ajouter - du moins d'après les idées communément admises sur 
l'information. 


De sorte que, lorsqu'on ajoute l'information d'un sondage à celle 
d'un recensement, on devrait retrouver l'information du seul recense- 
ment (vu que le sondage n'apporte rien de plus). Ainsi, logiquement, 
l'information complète (celle procurée par le recensement) devrait 
s'exprimer par +w, (On observera qu'il en est de même si l'addition 
porte sur les logarithmes des informations et non sur les informations 
elles-mêmes). 


En réalité ce second point de vue est logique sans être tout à fait 
décisif. On peut convenir en effet de limiter les recherches à un seul 
sondage simple exhaustif, - ce qui exclut toute possibilité d'ajouter à 
un sondage à 100% un autre sondage exhaustif à 5%. Lorsque l'urne est 
vide, l'opération s'arrête. 


Ainsi iln'y a peut-être pas de contradiction flagrante entre (1) 


et (2), mais il y a tout de même là une restriction notable, une option 
inévitable entre deux concepts. 


c) Considérons à présent un sondage stratifié. 
S'ilestune strate sur laquelle onne possède aucune information, 


il est conforme aux habitudes de pensée des ‘'sondeurs" de dire qu'on 
ne possède aucune information sur la population entière (mais seule- 


(1) Tel n'est pas le cas pour l'information de Lindley (voir plus loin $ IX). 
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ment sur les autres strates); c'est d'ailleurs un point sur lequel le 
statisticien dépourvu de formation sondage a une opinion différente. 


Une conséquence fâcheuse en découle si l'on convient de repérer 
l'absence d'information par le niveau O0 (et non par le niveau - ®) : 


Si l'on veut conserver cette vue des techniciens, il ne faut pas 
que les informations apportées sur chaque strate s'ajoutent ou se com- 
binent linéairement pour donner l'information relative à la population; 
tandis qu'iln'est pas exclu que les informations de strate se multiplient 
les unes par les autres (donc que leurs logarithmes s'additionnent). 


Or il est facile de voir que c'est là une exigence incompatible 
avec notre hypothèse de travail : t(v, n) = k(v, n)o” valable à l'inté- 
rieur des strates. 


Si l'on pose (avec des poids convenablesw) 
EN > WW, (v,, n,)#t(v, n,) 
h 
ceci implique (quand on épuise toutes les strates) : 


max £ t= Ÿ ü ( V,, af ex, 1% Lie ca | 
h 


Considérons alors un sondage à deux degrés. Si toutes les unités 
primaires sont sondées, le sondage à deux degrés devient sondage 
stratifié, la perte a la forme ci-dessus; si au contraire toutes les unités 
secondaires sont sondées dans l'échantillon d'unités primaires, on a 
un sondage en grappes dont la perte d'information est de la forme : 


£Ik(u, m) o] avec QE È Peas) 


et quand l'échantillon recouvre toute la population 
max #t=/#k(uu)+ fo? 


Comme on a supposé que l'information restait bornée si la popu- 
lation entière est tirée,les deux expressions de max ft sont incompa- 
tibles en général (puisqu'elles imposent une condition aux paramètres 
de la distribution). 


d) Un autre fait est qu'on devrait pouvoir (toutes choses 
égales d'ailleurs) appeler sondage optimal celui qui apporte le maxi- 
mum d'information, La théorie classique connait déjà les répartitions 
d'échantillon optimales au sens de Neyman (telles que la variance 
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d'échantillonnage et le coût du sondage soient l'un minimum et l'autre 
constant). Ainsi il est souhaitable que ces deux points de vue soient 
conciliables (sans coïncider pour autant). 


Admettons que le coût € soit combinaison linéaire des effectifs 
échantillon de strate. 


Si l'on convenait que les informations de strate s'ajoutent, un cas 
particulièrement gênant serait celui où l'information de strate serait 
de la forme : 


À» Dh 


puisque le maximum d'information (pour un coût total € = > c,n, donné 
d'avance) s'obtiendraiten concentrant l'échantillon sur les strates dont 


le coefficient À, / c est le plus grand (contrairement à la technique 
admise. 


Or on trouverait effectivement une expression de ce type pour 
l'information apportée dans des cas très simples. Posons : 


2 
NES er (Vi R) 


Reprenons une idée de M. Fonsagrive (après M. Chartier, Réf. 
Chartier 2). On considère deux strates d'effectif V formées par tirage 
au sortexhaustifs dans une urne d'effectif 2n. Ontire n boules de chaque 
strate. 


I1 est raisonnable d'admettre que l'information apportée est en 
moyenne la même que si (2n) boules étaient tirées de l'urne primitive. 
D'où une relation : 


V 2 2 = 2V 2 f[2 AE 
ë [5 coi+ cr, » | Se PAR) 


Grâce au lemme fondamental, on a : 


AVES) 
D PR Fra (Vent) 

Fo REP Pons 
D'où : PVR) f(2vV, 2n) 


cas particulier de l'équation fonctionnelle 


re) fur n) a f(P v, pn) 
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En partageant en deux l'urne primitive, on.est parvenu à l'équa- 
tion avec p = 2; mais en la partageant en p parties égales, on obtien- 
trait la même équation pour les diverses valeurs entières de p. La 
solution de cette équation compatible avec les autres conditions est 
justement Àn. 


Il est donc établi qu'on ne peut mesurer l'information apportée 
par un sondage avec l'expression t(V, n) = o’k(v, n). 


La notion de quantité d'information apportée ayant fait l'objet de 
travaux importants à la limite du domaine des sondages, on va en pas- 
ser en revue quelques-uns. 


VII - L'INFORMATION DE SHANNON - 


Le vocable "information" employé d'abord par Fisher a été re- 
pris par Shannon pour l'étude de problèmes de transmission. Good(1) 
notamment a pu exprimer cette ‘opinion raisonnable" qu'il n'y a pas 
grand'chose de commun entre l'information de Shannon et celle de 
Fisher. 


C'est Schutzenberger (2) qui, plus tard, a montré qu'elles entraient 
toutes deux dans le cadre d'une théorie générale de l'information. 


Shannon appelait information d'un message la somme des infor- 
mations des divers symboles qui le composent, - et information d'un 
symbole déterminé l'espérance mathématique ou plutôt la moyenne, 
changée de signe, du logarithme de la fréquence de son apparition. 


Le problème pour Shannon était de faire occuper le moins de 
temps possible une ligne télégraphique par les messages; ilfallait pour 
cela choisir pour les divers symboles possibles un code optimum 
tenant compte de la fréquence de chaque symbole. 


La quantité d'information d'un message détermine finalement le 
temps pendant lequel on permet au message d'occuper la ligne quand 
on emploie ce code. 


De leur côté, les statisticiens éprouvent le besoin de pouvoir 
définir une sorte de mesure (additive) de leurs travaux, en fonction de 
quoi ils répartiraient les moyens limités (personnel, matériel, crédits) 
dont ils disposent. 


(1) Discussion à la suite de la communication de Barnard, Réf. Bar. 


(2) Réf. Sch. 
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La "capacité" de la ligne a pour homologue en statistique la ca- 

pacité du bureau; mais quel sera l'homologue de la quantité d'infor- 

mation ? Ceci dépend de la manière dont on va transposer en statisti- 
que les deux notions de message et de fréquence. 


Cette transposition a été tentée à diverses reprises et notam- 
ment par Barnard(l). 


VIII - LA QUANTITE D'INFORMATION DE BARNARD - 


Barnard envisage une théorie suffisamment générale pour que le 
même symbole représente aussibienun message (en théorie des trans- 
missions), un problème (pour un calculateur électronique ou toute 


autre machine à calculer), ou une proposition (en statistique considé- 
rée comme un secteur de la logique). 


Notons en passant que la notion de ‘quantité d'information''de 
Shannon a été effectivement adoptée par la cybernétique et est finale- 
ment revenue jusqu'au statisticien comme partie intégrante du" jargon" 
des spécialistes du matériel électronique. 


Le ‘'message'"'" est donc transposé en une ‘proposition, et la 
"fréquence"! devient une ‘'probabilité'"'", la probabilité que la proposition 
soit exacte. C'est ici que les difficultés surgissent. 


Quel intérêt aurait-on à remplacer une probabilité p variant de 
0 à 1, par une expression (-log p) variant de 0 à l'infini ? 


Est-il plus intéressant d'avoir affaire à des expressions qui 
s'ajoutent, ou au contraire qui se multiplient les unes par les autres, 
quand on envisage simultanément plusieurs propositions disjointes ? 


log p + log p' = log pp' 


Barnard arrive vite à la conclusion que -log p ne mérite pas 
d'être tenu pour la quantité d'information. 


L'information serait une certaine grandeur (voire une certaine 
fonction) qu'on peut attacher à une proposition, au même titre qu'une 
probabilité; mais ce n'est certainement pas une simple fonction de la 
probabilité (ni -log p, ni une autre). 


Intéressons-nous plus spécialement à l'information en matière 
d'estimation statistique : 


(1) Réf. G. Barnard m'a prié (1960) de préciser qu'il avait exposé (1950) une 
façon de concevoir l'information, mais en admettait volontiers d'autres, 
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Etant donné une loi de distribution f(x; & )dx, où le paramètre C 
est à estimer, soit X, une valeur réellement observée pour x; l'infor- 
mation apportée par cette observation pourrait être : 


- log f(X;, C ) 


autrement une certaine fonction de &, et même une fonction de ce que 


Fisher appelle la vraisemblance (likelihood). 


Pour Fisher (et Barnard) il n'est ni probabilité a posteriori ni 
loi de Bayes; une probabilité est toujours a priori, avant qu'on ait fait 
les expériences, les observations; une fois franchi le pas, il n'existe 
plus de probabilités, mais des vraisemblances (et des informations). 


Et Barnard précise que Shannon, s'il était à sa place, considè- 
rerait © comme fixe, X; comme variable, et prendrait la moyenne de 
(-log) sur l'ensemble des valeurs que X;est susceptible de prendre. 


IX - LA QUANTITE D'INFORMATION DE LINDLEY - 


Quand on admet la loi de Bayes, et que par conséquent on ne con- 
çoit pas de théorie de l'estimation sans une loi de probabilité a priori, 
on est conduit assez naturellement à définir la quantité d'information en 
fonction de la probabilité a posteriori, et non plus de la ‘vraisemblance. 


Il est alors possible de conserver presqu'intégralement la défi- 
nition de Shannon; on abandonne seulement le signe moins qui précède 
le logarithme, de façon à définir, pour chaque état de nos connaissan- 
ces, un niveau d'information négatif, quand on gagne de l'information, 
on s'élève vers la cote zéro, Nous suivons ici le point de vue de 
Lindley, le plus récent (Réf. Li)(1). 


Soit p(&) la probabilité a priori et p(&|x) la probabilité a poste- 
riori de & sachant que x est le résultat de ou des observations. 


Les niveaux d'informations successifs sont, pour des tirages 
bernoulliens : 


: Î p(c) log p(T)idc 


ri 
L 


an 
il 


.= J p(tIx) log p(rix)dt 


Fe = J I, p(x}dx (information moyenne) 


(1) I ne diffère pas essentiellement de celui de ses prédécesseurs, McMillan, 
Blackwell, Bohnenblust-Shapley-Sherman, etc., de l'avis de Lindley. 
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où p(x) désigne la loi de probabilité a priori de l'observation x. 


: Se plaçant au point de vue “’séquentiel"', on définit le niveau Ê 
d'information après deux résultats d'observation x, x', en substituant 


p(clx, x!) à p(& |x) 


dans la formule; on définit de même le niveau B avec 


PILE Ve) 


etc. 


Le gain d'information apporté par les unités de sondage tirées 
aux rangs n+ 1, n+2, ... m est égal à la différence du niveau I, - I. 
Lindley montre que c'est une fonction ‘'concave!"'. 


Comparaison avec la perte d'information. 


Le caractère essentiel de la perte d'information est que le niveau 
I, n'est pas rejeté à l'infini. Au contraire, dans des cas très simples, 
on constate que le niveau I, de Lindley tend vers l'infini avec n; par 
exemple lorsqu'on a (exemple du $ X) 


I, = : log(\ +n) + constante 


Par ailleurs le niveau I, serait (pour la perte d'information) re- 
jeté à l'infini; alors qu'ici on part toujours d'un niveau fini. Ceci tient 
au fait qu'on ne part jamais d'une absence complète d'information, on 
se donne toujours a priori une distribution (qui peut en fait provenir 
d'un sondage antérieur). 


X - ETUDE D'UN EXEMPLE DE LINDLEY - 


Etudions avec Lindley une population infinie, distribuée suivant 
une loi de Laplace-Gauss de moyenne aléatoire et d'écart-type ©. 


Considérons a priori C comme une autre variable de Laplace- 
Gauss, de moyenne H (constante celle-la) et d'écart-type T. 


Supposons d'abord l'échantillon d'effectif n = 1, la probabilité 
élémentaire du couple aléatoire (x, C) est 


(2x)! (ot) exp {- [= " CH dxdE 
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et l'exposant de l'exponentielle peut aussi s'écrire : 


2 
m: 2 24, dé o?u +Tt? 
MAC) pets ct - Les 5 
PR] GET CE T2CÉ G 25% 
ce qu'on interprète en disant que la loi de probabilité a priori de x est 


de Laplace-Gauss, de moÿenne Li et d'écart-type \r?+07; et que la 
loi de probabilité a posteriori de € est de même type, mais de moyen- 


ne : CÉRRRLSE et d'écart-type ==. Ilestutileici de faire res- 
DO ET. + Voice 

sortir que : 

THEOREME - 


Sit aune distribution a posteriori de Laplace-Gauss, la quantité 
d'information est égale au logarithme (neperien) de l'inverse de son 
écart-type, diminué de log \| 27 (démonstration immédiate). 


En conséquence, le gain d'information I; - Içest égal à : 


T° 
log V DT log 0 = à to + 52 
Passons de là à un échantillon de taille n = 2; il vient : 


o? o? T T202 272502 


2 
(LA E + Cr cY Sete DZ TN (- T?(x:+%x2) = F 
et le gain d'information est : 


; los (or /icnt 252) AG 


L 


Avec un échantillon de taille n, le gain d'information est : 


par rapport au cas où n = 0 


2 


Tr ie RENE 
ni ES 1 g n /Flogn en posant \ nr 


NI 


= 5 log (W +n) 


par rapport à un échantillon de taille n - 1, il est : 


LEA ART x f\igd n 
EL E log fe Je 2 log È ne) 
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Quant à la loi a posteriori deC , c'est une loi de Laplace - Gauss 


2 2 22 
CAULERUTEX RÉ 
de mo a — ? = 
yenne Ac. et d'écart-type \ tnt 
NUE © ” 
ou de moyenne ER. et d'écart-type 
\2 +n Â2+n 


On peut comparer gain d'information et réduction de la perte 
d'information (variance), ou plutôt (si l'on fait abstraction de log(n/n - 1) 


et de D comparer 


rs p\2 ie o? 
8 (.+X) ve (+) et É = 


Lorsque n est grand (en supposant T° du même ordre que 0?), 
ces deux expressions sont des infiniment petits équivalents (au facteur 
+? près). 


= 


Quant à la loi a posteriori de&C , elle correspond assez bien à 
nos habitudes de pensée : il suffit d'imaginer qu'un sondage antérieur 
nous a procuré une moyenne U et une variance (estimée) T° et qu'on 
les prend comme paramètres de loi de probabilité a priori;alorson 
retrouve comme moyenne de la loi a posteriori l'estimateur habituel. 


La difficulté est qu'il faut donc toujours commencer par faire une 
première estimation sans probabilité a priori, - ce qu'on déguise en 
l'appelant : choix des paramètres LH etT. 


En dehors de ce cas simple, de peu d'intérêt pratique, l'infor- 
mation de Lindley (comme l'estimation par la méthode de Bayes) di- 
verge franchement de la présente théorie. 


XI - POINT DE VUE SUR CETTE INFORMATION - 


Le problème de l'estimation statistique peutêtre abordé de trois 
façons différentes : 


1) En se donnant la loi de répartition de X et la probabilité a 
priori du paramètre à estimer C : comme Lindley; 


2) En se donnant seulement la loi de répartition de X, - la gran- 
deur à estimer étant une constante inconnue non aléatoire : c'est le 
point de vue de R.A. Fisher; 
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3) Enne précisant même pas la loi de répartition de X, loi qui en 
pratique n'est pas connue et ne présente que des rapports éloignés 
avec les lois théoriques usuelles ou non : c'est le point de vue de Ia 
théorie des sondages. 


Le propre de la théorie des sondages est de faire des estima- 
tions en ignorant la forme des lois de distribution des variables en jeu. 


A fortioriest-il indispensable d'ignorer les lois de probabilité a 
priori desc. 


À - Cependant, dans le cas de populations sondées très grandes 
(et c'estun cas limite aussi important en pratique qu'en théorie) les X 
échantillon devenant indépendants, la théorie des résumés exhaustifs 
d'ordre I intervient. 


Si en outre les échantillons sont eux-mêmes très grands (cas 
très courant en pratique)les lois-limites de Laplace-Gauss et la consi- 


dération de l'estimation du maximum de vraisemblance entrent en jeu. 


Le problème de premier plan des sondages est l'estimation de la 
moyenne arithmétique x de la population, par celle X de l'échantillon. 


Si on a par ailleurs des raisons de penser que la distribution est, 
disons de Galton-Mac Alister-Gibrat, on pourra employer au lieu de X 
un estimateur X', tel que X' <VX en particulier l'estimateur du ma- 
ximum de vraisemblance X°, tel que 

VX e= 1L/nH 

C'est là (on l'a dit) un cas exceptionnel; il est de pratique cou- 
rante de réduire la perte d'information par ce qu'on connaît sur la 
structure de la distribution, la loi restant non spécifiée . 

Exemples - Sondage stratifié. 


XM= x |; = x} F0); avec & $8n=0 


sans spécifier les lois centrées $, et connaissant les effectifs de strate 
v, , on abaisse la variance dans le rapport : 


D VNG DIN EURE CRE) 
dans le cas où les fractions sondées sont les mêmes dans chaque strate, 


Si en outre les écarts-types de strate 6, sont connus, on pose : 
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N'a 0,19 avec 6%, = 0, VS8,=l; 
sans spécifier autrement les 9,, le sondage "à la Neyman'" abaisse la 
variance dans le rapport : 


VEN oO) /VEV 0 


Autre exemple : Estimation par une droite de régression. 


En postulant que X a une structure telle que : 
X=Y+9 ou X=Y+0(y)$ avec &$= 0 


on sait abaisser la variance dans le rapport (1 - p’) (p étant le coef- 
ficient de corrélation entre X et Y, et y étant supposé connu. 


Dans chacun de ces cas, dès qu'on spécifie que les variables $ 


sont laplace-gaussiennes, ou simplement suivent des lois admettant la 


moyenne arithmétique comme résumé exhaustif, il devient impossible 


s 


d'abaisser davantage la variance, du moins à effectif constant. 


Brefilest utile de se souvenir qu'il existe une loi de distribution 
alors même qu'on en ignore tout. 


B - De mêmeilest permis de chercher à tirer parti d'une théorie 
de l'information qui suppose connues : 


- la loi de distribution de X (à quelques € près); 


- la loi de probabilité a priori des C. 


Le tout est de savoir quel profit tirer du point de vue suivant 
lequel € cesse d'être une constante inconnue pour devenir une variable 
aléatoire. 


Lorsqu'on cherche à appliquer le calcul des probabilités à l'ana- 
lyse de données naturelles, il est bien normal qu'on ait quelque hési- 
tation sur le choix du schéma d'urne à employer pour introduire le ha- 
sard dans le raisonnement. En revanche, lorsqu'on opère sur des don- 
nées provenant de tirages au sort dont on a monté soi-même tous les 
mécanismes (et c'est le cas des méthodes modernes de sondage), on 
est en droit de douter de l'utilité et de la légitimité de l'introduction 
de variables aléatoires supplémentaires. 


Au reste on a repris l'exemple du $ X (du à Lindley) pour cher- 


cher àen tirer parti. Considérons une distribution laplace-gaussienne 
(H, o?) de moyenne et d'écart-type ©, dont on extrait un échantillon 
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bernoullien d'effectifn; sa moyenne X suita priori la loi laplace-gaus- 
sienne (LU, O?/n). Siu est inconnu (mais © connu) et si l'on connaît X 
(c'est-à-dire un certain échantillon), ilestassez naturel de considérer 
la variable aléatoire auxiliaire Mde distribution (X, o’/n) comme re- 
présentant l'estimation du paramètre inconnu p. Cette dernière dis- 
tribution est une probabilité a posteriori (connaissant l'échantillon). 
La loi de Bayes donne inversement une loi de probabilité a priori de M 
(et la loi de probabilité a posteriori de l'échantillon pour toute valeur 
donnée de M). 


Pour alléger le calcul, on s'assurera de l'identité de deux lois 
gaussiennes à un nombre quelconque de variables en identifiant : 


- d'une part les exposants de l'exponentielle (au facteur - 5 
près); 


- d'autre part l'autre facteur de l'élément différentiel (à 
un multiple près de 1/\ 2R). 


La loi de Bayes s'écrit dans le cas d'un seul tirage : 


p(x,) . p(M |x,) = p(M). p(x, |M) 


DRE X1 - 
In CAtOn EE — — -—— 
cé CE 2 02 CAE 2 


ce qui fait bien apparaître laloiapriori (u, 20?) pour M. 
Dans le cas de deux tirages, on a : 
p(M).p(x,, x, | M) = p(x,, x,). p(MIx,, x,) 
avec P(x;, X,) = p(x,). p(x,) = p(x, - x,). p(x, + x,) 
correspond aux égalités suivantes d'exposants : 


XX, 


CU) (x, H)$ +) M- 73 on) 2e L Gé) 2 (MEL) 


= 2(x,+x,) (M+u) = Lex, x MES -u) LE : > (1 =. | LA(MN= u) 


où le crochet correspond à p{x,, x,| M) et (M -u r à p(M). 


Dans le cas den tirages, il vient : 


_ 2 ts 2 
Sos = u)° + nt - Ki =] 1, - fr. fra h )° : 
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avec la même décomposition en p(x,, x,, ... x, [M). p(M). 


Conclusion. 


La loi de Bayes conduit pour M à je loi de probabilités a priori 


(avant tirage) : laplace-gaussienne (u ; 22). 


Il en résulte que cette loi a priori ne serait pas la même quand 
on tire 1, 2, ... n boules, ce qui est absurde. Autrement dit : 


Il n'est pas possible de représenter l'estimation (séquentielle) 
de H par une variable aléatoire gaussienne M, constamment centrée 
en X et de variance o?/n, lorsqu'on suppose les variables X de valeur 
centrale L inconnue mais fixe (comme c'est le cas lorsqu'on sonde une 


urne);, on en conclut qu'il n'y a pas lieu de conserver l'aléatoire M. 


Ceci ne signifie pas que, dans aucun cas, la loi de Bayes ne 
puisse avoir d'application. Mais nous la réserverions à des cas où il 
n'y a pas eu tirage au sort effectif (échantillon formé des premiers 
arrivants, par exemple). 


XII - SUR L'INFORMATION SELON SCHÜTZENBERGER - 


Schützenberger a établi (dans sa thèse, Pub. Inst. Stat. Uni. 
Paris, LUI, 1-2, page 43 ) le théorème suivant : 


Toute information(l) estla valeur moyenne, étendue à l'ensem- 
ble des états, de la résultante de l'application d'un opérateur linéaire 
$S sur le logarithme de la probabilité a priori de chaque état . 


En particulier avec S = - 1, on a l'information de Shannon; 


2 
. , on retrouve l'information de Fisher, 


avec S 
etc. 


D'où la question : à quel opérateur linéaire S correspondrait la 
perte d'information" et en particulier la variance ? 


1/ Tout d'abord les "états" évoqués dans une théorie volontaire- 


ment très générale peuvent être compris de plusieurs manières. 


(1) On notera qu'il existe de nombreux cas de pseudo-information, c'est-à-dire 
d'expressions qui, sans être des informations, sont de la forme : 


p, S log p, 
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Limitons-nous d'abord au sondage exhaustif dans une urne uni- 
que. À une taille n donnée de l'échantillon correspond : 


- un plan de sondage ñ; 


- (es = m échantillons distincts, donc m valeurs d'un esti- 


mateur Z; 
- m? couples d'échantillons distincts, donc m° valeurs 
> CZ = Z;) ou plus généralement (ij), avec 
(ii) = 0; (ij) = (ji) 
etc: 


a) Un ‘état peut donc signifier un échantillon, un couple 
d'échantillons, etc., l'information (perdue) étant celle du plan de son- 
dage tout entier. 


En pareil cas, les probabilités p; sont égales entre elles, - à 1/m 
pour la première interprétation, à 1/m°? pour la seconde, etc. 


Si par ‘'état'' on entend ''couple'"', peut-on considérer 5 (Zi - Z ); 


- plus généralement (ij), - comme un S$ log(p;;).? 


b) Mais par ‘état on peut entendre encore une chaine d'é- 
chantillons "de taille" (vi-11) (V2) (ns p2); "(nt 1), nn, telle 
qu'on perde à chaque étape une unité de sondage de l'échantillon. Si 
les probabilités sont encore égales entre elles, leur expression est 


devenue : 


n!/v! 


Au lieu d'une seule chaine, on peut d'ailleurs en considérer deux 
simultanément. Mais, de toute manière nos "états'' sont équiprobables. 


L'information sera obtenue en divisant la somme des (S log p.) 
par le nombre d'états. 


2/ Que faut-il comprendre alors par résultante de l'application 
d'un opérateur linéaire S ? 


Considérons deux plans de sondage de taillesn et n'; soit nr et ñ'. 


Supposons que, n étant plus grand que n', on passe d'un ‘'état" 
de rx à unétatde nr', donc d'une probabilité p à une probabilité p!' = pq. 
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Par exemple : 
p=n!/v!, Ps nitTE q=n'!!/n! 
dOÙ: 
log p= og n'ose log p'=logn'! -log v!, 
log q = logn'! - logn! 


a) On voit alors que Slogp; ne peut désigner (Z - € ss pour 
la raison qu'on n'a pas : 


C7) ni) 2) 
l'égalité des deux membres supposant (Z' - Z).(Z - £)= 


Ilen résulte que ‘'état''ne peut signifier ‘'échantillon" avec lequel 
on calculerait Z (ou Z'). 


b) Désignons au contraire par état un couple (E:i, E;) 
d'échantillons, chacun de taille n, et passons de là (en perdantn'-n 
unités pour chacun) à un couple (E', E') chacun de taille n'. 


On voit cette fois qu'on peut poser : 
CE CAES AR EN AE A) 


expression dont le second terme se réduit à 0 pour Z = € (c'est-à-dire 
TAEAU): 


En résumé : Par état on peut comprendre le couple d'échantil- 
lons; et par st par résultante de l'a application de l'opérateur linéaire S sur 


log p, on peut entendre : 


(Zip Z';)° At Z)°] /2 


ou (plus généralement) toute fonction GAME RCE EDatellenque 
G(J, 1) = G(L, J), GE, D) = 


Généralisation. 


Pour les besoins par exemple de la mesure de la perte d'infor- 
mation sur l'estimation d'une perte d'information, on pourra considé- 
rer comme état un groupe de 4 échantillons et pour 


S10gp= (2: - Zi) SZ ZE Z )° (Z, - Z,)° 
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ainsi que des expressions plus générales. 


Cas de plans de sondage plus complexes. 

La transposition est immédiate. En particulier les tirages avec 
probabilités inégales (associés à des estimateurs sans biais) modifient 
le calcul de l'espérance mathématique de $S log p, mais nonS log p. 


XIII - AUTRE INTERPRETATION DE LA PERTE D'INFORMATION 
(T.CR 4 1958) - 


Revenons sur le théorème de Schützenberger évoqué au $XII. 


Soit i, j, deux échantillons au hasard (distincts ou non) du même 
plan de sondage et F une fonction positive, telle que : 


ES) FUN) F(ii) = 0 


La probabilité d'obtenir le couple ij est 1/m°? s'ilexiste m échan- 
tillons équiprobables pour ce plan de sondage. 


Appelons écart D(ij) entre les deux échantillons ij l'expression : 
D(ij) = | exp EE GI “ef 
et densité le rapport m /D(ij) = p(ij) 
soit q(ij) = 1 - exp [- F(ij] 


C'est bien une probabilité (comprise entre 0 et 1); posons de 
même : 


ptÿ) = adj) = exp [- F(j)] 
d'où = 102 p(i})} = FE (1j): 


Appelons enfin & [- log p(ij)] = &[F(ij)] = & (pi) la perte d'information. 
On retrouve à la fois la définition de Shannon et la nôtre. 


Donc, tout se passerait comme si la densité de probabilité de 
l'écart entre les deux échantillons ij était de la forme : 


À . exp [- F(ij). B] 


où À et B désignent deux constantes (positives). 
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En particulier : Cas de la variance. 


Pour estimer sans biais le paramètre &C, on dispose de 
Zi) et Z(j) 


c'est-à-dire deux estimations, sur échantillons tirés au sort (i) et 
(j),avec l'estimateur sans biais Z. 


Soit F(ij) = [Z(i) - Z()]72 
On sait que : (pi) =VZ=6F 


Pour retrouver l'information de Shannon, il faut donc que 
Z{(i) - Z(j) ait une densité de probabilité de Laplace-Gauss. 


Lorsque l'échantillon est grand, les moyennes sur échantillon 
admettent des lois-limite de Laplace-Gauss; de même les estimations 
du maximum de vraisemblance; etc. Supposons que ce soit le cas pour 
Z. La différence Z{i) - Z(j) suit elle-même une loi de cette nature. 


Ainsi, lorsque l'estimateur admet une loi-limite de Laplace- 


Gauss, il y a coïncidence entre l'information de Shannon et la perte 
d'information dans le cas des grands échantillons. 


Mais si l'on écarte cette interprétation asymptotique, on est ré- 
duit à supposer que le plan de sondage est bernoullien et la distribution 
de base laplace-gaussienne, ce qui ne présente plus beaucoup d'intérêt 
pratique ($ X ci-dessus). 


XIV - SUR L'INFORMATION SELON FISHER - 


Finalement l'opérateur linéaire S de Schützenberger qui est uti- 
lisé en sondage, n'a donc rien de commun avec celui (22/9&?) de Fisher. 


La relation simple entre o?/n et n/o? (avec une loi de Laplace- 
Gauss) apparaît comme accidentelle. Essayons de l'expliquer. 


Limitons-nous au cas de l'estimation d'un seul paramètre €, par Z. 
Soit F la loi de probabilité de Z, et G celle des variables X,, X,, 
... X, indépendantes au début et qu'on lie par une valeur donnée à Z. 
On désigne par f;la loi de probabilité de X;. Il vient : 
D log f, = log F + log G 
(n) 
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En dérivant deux fois par rapport à © , en prenant les espérances 
mathématiques des deux membres et en changeant les signes, il vient : 


2 2 
Information de Fisher = & | - [Es (log F)| + 6 |- (108 o | 
dc? LI 


[2 (log »| + 6 F (log o] 
CIe oc 


Lorsque la loi f(X) admet un résumé exhaustif d'ordre 1 par rap- 
port à & , le deuxième terme du deuxième membre disparaît; il subsiste 
autrement. 


Lorsque n est grand, X admet une loi-limite de Laplace-Gauss, 
et on va s'en tenir aux estimateurs Z possédant cette même propriété. 


Par conséquent on aura : 


2” legs 
s|- 3e? log r|h+e 


où © n'est pas l'écart-type des X mais celui des Z pour n = 1 (ou à 
défaut pour n = r). 


Considérons alors un couple d'échantillons de taille n, soit (1), 


(2). 


Si Z(1) et Z(2) sont sans biais, la variable Z{(1) - Z(2) est indé- 
pendante de ©. De plus, comme nest grand, elle est{laplace-Gaus- 
sienne, comme la variable Z{(1) + Z(2) dont elle est indépendante. 


Le moment du 2ème ordre de Z{(1) - Z(2), en particulier, ne 
peut dépendre de £. Au contraire, l'information de Fisher est une fonc- 
tion de ©, constante dans le cas particulier où log f est un polyÿnome du 
2ème degré en & (exclusivement). 


Pour le couple (1) (2), l'information de Fisher est : 


& [- ER » |+e |- once 2 
TC? 


dt ° de 


log ce | 


où le premier terme est voisin de 2n/o?. On sait que o?ne dépend pas 
de &; c'est donc dans le second terme qu'est localisée l'influence de 


G. 


Finalement c'est cette présence de 
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&(- 2? log G/ 2C?) = &( 2log G/2t)” 


à côté de &( dlog F/2C)° quirend l'information de Fisher (pour n grand) 
au moins égale à l'inverse de V (Z). 


XV - DERNIERES REMARQUES - 


Les informations de Lindley ou de Fisher sont bien entendu des 
solutions de l'équation de Récurrence de Schützenberger. Mais l'espé- 
rance mathématique qui y figure a, pour l'Information de Lindley, une 
signification fort différente de la nôtre; alors que nous lu; donnons le 
même sens que Fisher. Le raisonnement que nous avons fait, à la 
Ilème partie du Chapitre IV n'est valable, il est vrai, que pour des 
pertes d'information finies; mais il serait possible de l'adapter au cas 
présent. Ainsi est-on conduit à poser : 


9 (x') - 8(x) 


n 


1/H 


Lee (EDEN 


avec deux sondages bernoulliens (n') et (x), d'effectifs : 


NEC EHEN 
-2 
+ Rae we 
avec 2g(i, j) |= log f(x, C) 


Ainsi s'achève cet exposé qui, à notre regret, malgré sa longueur, 
laisse encore bien des points dans l'ombre. 
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LA MÉTHODE STATISTIQUE EN MÉDECINE : 
LES ENQUÊTES ÉTIOLOGIQUES 
Daniel SCHWARTZ 


Exposé fait au Séminaire de Statistique le 10 Novembre 1959 


Onse propose de rechercher dans quelle mesure un facteur x in- 
tervient causalement dans le déterminisme d'une maladie mau sein 
d'une population humaine : par exemple l'usage du tabac dans le cas 
du cancer broncho-pulmonaire. 


Ce problème peut théoriquement être abordé : 


- soit par la voie expérimentale : examende 2 groupes com- 
parables, obtenus par tirage au sort, dont l'un sera soumis au facteur 
x et l'autre non. Cette façon de faire est le plus souvent inapplicable 
pour des raisons matérielles ou morales; elle ne répond d'ailleurs pas 
- exactement à la question posée : avec ce procédé autoritaire le cancer 
du poumon pourrait bien frapper, dans le groupe fumeur, des sujets 
particulièrement vulnérables, qui dans les conditions spontanées ne 
fumeraient pas; 


- soit par la voie de l'observation : on cherche s'il existe, 
dans la population générale, une association entre l'exposition au fac- 
teur xet l'apparition de la maladie m. Cependant l'association ne per- 
met pas de conclure à la causalité, du fait que l'exposition au facteur x 
est aléatoire, et liée à de nombreux facteurs, parmi lesquels peut se 
trouver la vraie cause: si l'usage du tabac résulte d'un psychisme dé- 
terminé, la consommation de tabac élevée des cancéreux ne serait-elle 
pas seulement l'indice d'un psychisme particulier, qui serait la cause 
de ce cancer ? La voie de l'observation ne saurait donc en théorie rien 
apporter au problème étiologique. En fait elle a permis, dans certains 
cas qui seront développés en fin de cet exposé, d'aboutir à une forte 
présomption causale. 


Cependant même si, renonçant à l'interprétation causale, on se 
contente plus modestement d'étudier la relation d'association, il faut 
préciser d'emblée que cette association à l'état brut est souvent inin- 
téressante : ainsi, dans l'exemple qui vient d'être cité, on doit s'at- 
tendre à observer beaucoup plus souvent le cancer broncho-pulmonaire 
chez les fumeurs que chez les non fumeurs, par le seul fait que l'âge 
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moyen est beaucoup plus élevé dans le premier groupe que dans le se- 
cond, qui comprend jusqu'aux nouveaux-nés; il n'est intéressant de 
comparer les fumeurs et les non fumeurs qu'à âge égal; on arrive 
ainsi à la notion d'une association corrigée de l'influence de l'âge. Ce 
problème pourra être abordé, soit en examinant seulement une popula- 
tion d'âge donné (étude en population homogène), soit par une étude en 
population hétérogène, couvrant un assez large intervalle d'âges, l'in- 
fluence de l'âge étant éliminée par un procédé statistique. 


Les mêmes considérations s'appliquent naturellement à des fac- 
teurs autres que l'âge : sexe, peut-être milieu d'habitation, niveau 
social... d'une manière générale à tous les facteurs liés à la consom- 
mation de tabac. La liste de ces facteurs peut être longue et inconnue. 
En fait on peut assez raisonnablement distinguer 2 étapes : 


- dans une première étape, on étudie l'association, d'une 
part à l'état brut, mais simultanément en la corrigeant de l'influence 
du sexe et de l'âge, et éventuellement d'un nombre extrêmement réduit 
de facteurs liés fondamentalement à l'exposition au facteur x. 


- dans une deuxième étape, on corrige l'association pour 
tous les autres facteurs liés à l'exposition au facteur x. Cette étape 
peut être menée plus ou moins loin. Elle est sans fin ... 


On peut admettre, sans trop d'arbitraire, que la limite entre ces 
2 étapes définit le moment où se termine l'étude du rôle étiologique du 
facteur, et où commence la recherche d'une interprétation causale. 


L'une et l'autre peuvent être abordées : soit par l'examen d'une 
population homogène, où tous les facteurs en cause sont constants, soit 


par l'examen d'une population hétérogène, où le rôle de ces facteurs 
est éliminé par un procédé statistique. 


Ces considérations définissent le plan de notre exposé. 

I - PRINCIPE DE L'ENQUETE ET MODE D'ECHANTILLONNAGE - 
a) UN PREMIER EXEMPLE (enquête prospective). 
Dans cet exemple, on constitue un échantillon représentatif de la 


population générale; on note siles sujets sont exposés ou non au facteur 


x, et on enregistre par la suite tous les cas de la maladie m qui se 
produisent. 


De telles enquêtes ont été conduites notamment pour étudier le 
rôle de l'obésité et de l'hypertension dans l'étiologie de la maladie 
coronarienne (18), de la rubéole des femmes enceintes dans la produc- 
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tion de malformations chez l'enfant (36), de la consommation de tabac 
dans le déterminisme de diverses maladies, en particulier le cancer 
des voies aéro-digestives supérieures (24, 25, 32). 


L'échantillon examiné doit être représentatif. Cependant cette 
exigence n'est pas toujours réalisable, et dans certains cas on a choisi 
un groupe plus facile à suivre, par exemple la totalité du corps médi- 
cal (24) ou un groupe de sujets pensionnés de l'Etat (25), faisant l'hy- 
pothèse d'une stabilité de l'association étudiée (si le tabac est dange- 
reux pour le corps médical, il l'est vraisemblablement d'une manière 
générale). Entout état de cause, si on ne cherche pas à extrapoler, on 
dispose au moins de résultats valables pour une populationbien définie. 


L'échantillon peut être représentatif d'une population homogène : 
l'enquête (32) sur les fumeurs portait sur les sujets de sexe masculin, 
de race blanche, d'âge compris entre 50 et 69ans. Par contre, l'en- 
quête (24) sur le corps médical portait sur une population hétérogène 
en âges, et l'étude d'association à âge donné nécessita une correction 
par un des procédés qui seront exposés plus loin. 


L'exposition au facteur x est connue par un examen ou un ques- 
tionnaire, nécessairement très réduit en raison du grand nombre des 
sujets; quant à la maladie, elle est enregistrée lorsque c'est possible; 
cependant on doit souvent se contenter de l'information du décès, substi- 
tuant à l'étude d'une maladie l'étude de la mort par cette maladie. 


Une enquête ‘'prospective' de ce genre présente d'indiscutables 
avantages : elle fournit, comme on le verra plus loin, une information 
complète sur le rôle du facteur; elle évite le recours à des groupes té- 
moins critiquables; l'interrogatoire a lieu à un moment où le sort du 
sujet n'est pas connu, ce qui en garantit l'impartialité. Enfin il est 
possible d'étudier simultanément les diverses maladies imputables au 
facteur. 


Mais le nombre de sujets exigé est considérable, dès que la fré- 
quence de la maladie est faible : on a suivi près de 200 000 sujets pen- 
dant plusieurs années dans les enquêtes (25) et (32). De telles enquêtes 
sont donc rarement réalisables. 


b) UN DEUXIEME EXEMPLE (enquête rétrospective). 


Dans ce deuxième exemple, on constitue un échantillon de sujets 
atteints de la maladie, et un échantillon témoin qui en est indemne, et 
on les compare pour la proportion de sujets exposés au facteur x. 
L'échantillon de malades doit être représentatif; si ceci a pu être réa- 
lisé dans de rares cas, notamment dans une enquête sur les cancerset 
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leucémies de l'enfant qui a pu englober tous les cas (du moins tous les 
cas mortels) pendant une période donnée (62), on se contente en général 
d'un mode de recrutement commode, par exemple des cas rencontrés 
à l'hôpitalet dans certaines villes, admettant ici encore la stabilité de 
l'association. 


C'est alors la définition du groupe témoin qui devient difficile : 
il doit être obtenu par tirage au sort parmi les sujets indemnes de la 
maladie dans ‘la population d'où provient l'échantillon de malades". 
Si on choisit pour le groupe malade les cas hospitaliers, on admettra 
que cette population est ‘'la clientèle hospitalière", c'est-à-dire une 
catégorie de sujets que leur condition (sociale, familiale, psychologi- 
que ...) rend candidats à l'hôpital en cas de maladie. 


En réalité il n'existe pas une clientèle hospitalière en général, 
mais une clientèle par maladie : plus celle-ci est grave, plus l'hôpital 
recrute à une grande distance et dans des classes sociales de niveau 
élevé; c'est donc la clientèle spécifique de la maladie m qu'il faut 
échantillonner pour constituer le groupe témoin. Pratiquement on forme 
le groupe témoin avecles cas hospitaliers d'une maladie m' de gravité 
comparable à m; ce procédé n'est acceptable que si la maladie m'a 
frappé cette clientèle ‘'au hasard", c'est-à-dire si elle ne présente pas 
de relation avec le facteur x (ce qui va de soi : il ne faut évidemment 
pas que la maladie m' soit liée à une sous-exposition ou à une sur-ex- 
position au facteur). On choisira par exemple, pour l'étude d'un can- 
cer, des témoins atteints d'autres cancers, ou d'autres maladies gra- 
ves; ou bien, partant du groupe de sujets venus consulter pour une tu- 
meur, dontils ne savent si elle est bénigne ou maligne, on les divisera 
après coup en cancers (maladie à étudier) et tumeurs bénignes (té- 
moins), étant à peu près assuré que les mêmes facteurs d'échantil- 
lonnage ont dirigé les uns et les autres vers l'hôpital. 


La difficulté de trouver un groupe témoin correct conduit en gé- 
néralà choisir plusieurs groupes témoins, qu'on justifie par une com- 
paraison mutuelle : par exemple, dans l'enquête (60) sur le cancer 
broncho-pulmonaire, les 3 groupes témoins choisis (cancers autres 
que ceux des voies aéro-digestives supérieures, malades des services 
de médecine générale, accidentés) ont présenté le même niveau de 
consommation de cigarettes (alors que celui-ci était beaucoup plus 
élevé pour les cancers du poumon). 


De toute manière, si on suppose que le groupe témoin ne re- 
présente pas correctement la population d'où provient le groupe mala- 
de, il devient nécessaire de corriger ce biais, soit par l'examen de 
populations homogènes (comparaison des malades et des témoins dans 
des groupes de milieu d'habitation, niveau social ... donnés), soit en 
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appliquant à l'échantillon de population hétérogène les corrections vou- 
lues, qui seront exposées plus loin. 


Cette partie de l'analyse statistique doit être menée avec soin, 
si on veut éviter d'appeler association ce qui ne serait en fait que le 
résultat d'une inégalité d'échantillonnage entre les 2 groupes. 


C'est pourquoi on tâche en général de corriger cette inégalité 
par un appariement; ce procédé, qui est un des avantages possibles de 
l'enquête rétrospective, consiste à chercher, pour chaque malade in- 
terrogé, un témoin comparable eu égard à certaines caractéristiques : 
celles-ci peuvent être, soit des facteurs d'échantillonnage (milieu d'ha- 
bitation, niveau social...) soit des facteurs essentiels cités plus haut : 
sexe, âge … Ainsi, dans l'enquête (60) sur l'étiologie du cancer broncho- 
pulmonaire, à chaque malade correspondait un témoin d'âge voisin 
(même tranche d'âge de 5 ans), interrogé à la même époque et si pos- 
sible dans le même hôpital; dans l'enquête sur les cancers de l'enfant 
(62), les témoins étaient tirés au sort sur les registres de l'état-civil 
de la commune où était né l'enfant cancéreux. parmi les enfants de 
même sexe nés à la même date, ce qui assurait l'appariement par 
sexe, âge et lieu d'habitation. 


I1 va de soi que l'appariement doit être limité aux seuls facteurs 
dont le rôle est déjà connu; dès lors qu'on apparie en fonction d'un 
facteur, on annule pour ce facteur la différence entre les groupes ma- 
lade et témoin, de sorte qu'on renonce à toute information sur son 
rôle dans l'étiologie. 


L'exemple ainsi décrit d'enquête rétrospective comporte finale- 
ment bien des difficultés de principe; en contre-partie la conduite de 
l'enquête est infiniment plus aisée que dans les enquêtes prospectives, 
car il suffit de réunir un nombre relativement faible de cas. En outre, 
il devient alors possible de mettre en jeu un questionnaire détaillé, de 
sorte que ce n'est pas seulement le rôle d'un facteur qui est étudié, 
mais de plusieurs, voire de tous ceux dont l'influence étiologique est 
supposée. 


Aussi ce genre d'enquête a-t-il tenté de nombreux chercheurs, 
qui l'ont utilisé pour des maladies aussi variées que la tuberculose (44), 
la maladie coronarienne (21, 28, 65), la cirrhose du foie (54), les mal- 
formations congénitales (45) et surtout le cancer. Dans ce seul do- 
maine, on a ainsi étudié la relation entre la situation de famille et le 
cancer du sein (30, 37, 59, 63) ou du col de l'utérus (30, 34, 43, 68), 
l'étiologie du cancer de la vessie en fonction de l'usage du tabac (11, 
19, 40) ou d'infections parasitaires (52), du cancer des voies aéro- 
digestives supérieures en relation notamment avec la consommation du 
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tabac et de l'alcool (38, 50, 55, 56, 58, 69, 71), des cancers gastro- 
intestinaux en relation avec l'usage des laxatifs (6), du cancer gastri- 
que en relation avec les antécédents héréditaires (64) ou le groupe san- 
guin (5, 29) de la leucémie chez l'enfant en relation avec une irradia- 
tion de la mère pendant la grossesse (62). Rien que pour le cancer 
broncho-pulmonaire, on peut citer plus de 20 enquêtes rétrospectives 
(notamment 7, 22, 55, 60, 67 pour ne mentionner que celles qui portent 
sur au moins 500 cas de cancer et 500 témoins, et 31, 70 pour celles 
qui portent sur le sexe féminin). 


c) CONSIDERATIONS GENERALES - CLASSIFICATION DES 
ENQUETES. 


Les 2 modes d'enquête qui viennent d'être décrits sont très 
différents, et l'élément le plus apparent de cette différence est d'ordre 
chronologique : on s'attache à l'avenir des sujets dans un cas, au passé 
dans l'autre. Cependant le temps n'est ici qu'un caractère second, 
et il est bien plus judicieux de classer les enquêtes d'après le 


mode d'échantillonnage. 


Nous adopterons à cet effet un modèle, représenté au tableau 2, 
où les sujets sont classés dans un tableau 2 x2 en 4 catégories. Il 
s'agit là d'un modèle simplifié; en effet : 


a) la raison pour laquelle les sujets non exposés peuvent 
contracter la maladie m n'est pas envisagée; cette raison peut être 
l'exposition à un facteur y au moins; il faudrait dans ce cas prévoir un 
modèle à au moins 3 dimensions (exposition au facteur x, exposition au 
facteur y, maladie m); 


b) on pourrait étudier avec plus de précisionle rôle du fac- 
teur x, en supposant plusieurs degrés d'exposition. Ce point sera par- 
fois pris en considération dans les pages qui suivent; 


c) ilfautenfin préciser ce qu'on entend par ‘'sujets atteints 
de la maladie m''. Il peuts'agir de mortalité ou de morbidité, et, dans 
cette dernière éventualité, soit des nouveaux cas apparus pendant une 
période donnée, soit des cas existant à un moment donné (incidence et 
prevalence de la terminologie anglo-saxonne); ces aspects, - et d'au- 
tres qu'on peut imaginer - traduisent des moyens différents de mesu- 
rer la fréquence d'une maladie dans un groupe. Cette diversité est com- 
mune à bien des problèmes d'ordre statistique en médecine, et la source 
de bien des difficultés. Nous conserverons dans le tableau 2 la termi- 
nologie, à dessein vague, de ‘'malades'', en sachant qu'il y aurait lieu, 
pour chaque problème particulier, de formuler au départ une définition 
plus précise. 
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Si on adopte le modèle du tableau 2, les 2 variables, exposition 
au facteur x et atteinte par la maladie m, étant toutes deux aléatoires 
(puisqu'il s'agit uniquement d'observation, l'expérience étant exclue), 
c'est la nature de leur distribution - distribution contrôlée ou distri- 
bution aléatoire - qui permet de classer les types d'enquête. On obtient 
alors, avec White et Bailar (66), 3 types : 


Type 1 - distribution aléatoire pour x et pour m : on constitue un échan- 
tillon représentatif de la population étudiée. 


Type 2 - distribution contrôlée pour x, aléatoire pour m : on constitue 
2 groupes représentatifs de sujets exposés et non exposés. 


Type 3 - distribution contrôlée pour m, aléatoire pour x : on constitue 
2 groupes représentatifs de sujets malades et non malades. 


TYPE 1 (échantillon représentatif de la population étudiée). 


C'est dans cette catégorie qu'entrent les enquêtes prospectives 
décrites plus haut. Toutefois le type 1 n'oblige aucunement à suivre 
les malades dans le futur, on peut très bien dans certains cas se ré- 
férer au passé ou au présent des sujets. Naturellement, s'il s'agit du 
cancer du poumon, on ne saurait s'intéresser au passé, car les sujets 
ayant dans le passé développé cette maladie seront en majorité décédés, 
ce qui faussera l'échantillonnage; on ne peut pas davantage s'intéres- 
ser au présent, car le nombre de sujets atteints serait trop faible; 
force est donc de suivre les sujets dans le futur. Mais dans le cas d'une 
maladie non mortelle, et fréquente, rien n'empêche de considérer le 
passé ou le présent : on pourra par exemple étudier la relation entre 
l'éthylisme et les altérations artérielles du fond d'œil sur un échan- 
tillon de taille modeste, le facteur et le signe pathologique étant tous 
deux largement répandus. 


Au type 1 se rattache la catégorie particulièrement intéressante 
des enquêtes de morbidité, qui indiquent les nouveaux cas de maladie 
apparus, pendant une période déterminée, dans la population entière 
d'une aire géographique déterminée, et constituent des enquêtes étio- 
logiques possibles lorsque le facteur x est une caractéristique démo- 
graphique connue par les statistiques de cette population : ainsi a-t-on 
pu étudier la relation entre les cancers génitaux de la femme et la 
situation de famille, dans 10 grandes villes des U.S.A. (26) et dans la 
totalité du Danemark (10). 


TYPE 2 (un groupe de sujets exposés, un groupe de sujets non exposés). 

Ce type peut permettre de suivre un nombre de sujets moins 
considérable que dans le type 1. Avec les notations des tableaux 1 et2, 
la comparaison des 2 groupes fait intervenir une variance de forme 
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RU < ue ARE) ;onpeut, sefixant celle-ci, chercher les va- 
No* n* “ 

leurs de n,, et n,, qui assurent l'effectif total (nox + nx) minimum. Si 

on suppose que la fréquence de la maladie ne sera pas beaucoup plus 


élevée dans le groupe exposé que dans le groupe non exposé (m, # mo), 


c'est en choisissant des effectifs égaux dans les 2 groupes qu'on obtient. 


le minimum de sujets à suivre. 


Dans le cas de l'enquête sur le rôle du tabac, un échantillonnage 
aléatoire de 200 000 sujets conduit à 30 000 non fumeurs et 170 000 fu- 
meurs; il est certain qu'en constituant au départ 2 groupes d'effectifs 
plus équilibrés, on peut, pour une même précision, diminuer le nom- 
bre de sujets nécessaire; cela obligerait, par ailleurs, pour trouver 
davantage de non fumeurs, à organiser une prospection initiale plus 
étendue : peut-être serait-ce finalement plus compliqué, ceci dépend 
des difficultés relatives de la prospection initiale et de la surveillance 
ultérieure. La surveillance est en général difficile, la prospection ini- 
tiale peut être aisée : s'il s'agit d'étudier la fréquence des cancers 
génitaux de la femme en fonction du nombre d'enfants, ce dernier ren- 
seignement sera facilement disponible, et on aura tout intérêt à cons- 
tituer 2 groupes d'effectif équivalent de femmes avec ou sans enfants. 


Le bénéfice du type 2 est d'autant plus considérable que l'exposi- 
tion au facteur est plus rare (par exemple exercice d'une profession 
peu répandue). Si celle-ci se rencontre 1 fois sur 1 000, le coefficient 
de la variance serait, par millier de sujets, dans le type 1 (toujours 


dans l'hypothèse m,#m.), L.+ =. # 1; précision qui peut être obte- 
nue dans le type 2 par , + 3° donc avec 4 sujets; il suffit ainsi d'un 


nombre de sujets 250 fois plus faible. 


À ces gains souvent très considérables, le type 2 permet d'a- 
jouter encore un perfectionnement : lorsque l'exposition au facteur 
peut être divisée en plus de 2 classes hiérarchisées (0, 1, 2, ... en- 
fants, ou non fumeurs, petits, moyens, grands fumeurs), si on sup- 
pose que l'effet du facteur croît en fonction de cette hiérarchie, on peut 


constituer 2 groupes, correspondant aux valeurs extrêmes (non fumeurs 


et très grands fumeurs, femmes sans enfants et mères de famille 
nombreuse). L'écart escompté entre les 2 groupes étant augmenté, on 
pourra se contenter d'effectifs plus faibles. 


Enfinuncas extrême du type 2 est celui où on constitue seulement 
le groupe exposé au facteur, le groupe non exposé s'identifiant à la po- 
pulation générale : on a suivi, par exemple, un groupe d'ouvriers tra- 
vaillant dans l'amiante, et comparé la fréquence observée de décès par 
cancer du poumon à celle de la population générale (23); on a de même 
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étudié la mortalité par cancer du poumon chez les sujets gazés, ou 
souffrant de bronchite chronique (9), la mortalité par cancer de l'es- 
tomac chez des personnes achlorhydriques ou atteintes d'anémie per- 
nicieuse (3, 33, 51), la mortalité chez les radiologistes, pour les 
différentes causes de décès, et en particulier le cancer (17, etc. ). 
Cette méthode suppose naturellement que les sujets exposés constituent, 
dans la population générale, un groupe suffisamment petit pour qu'on 
puisse confondre population non exposée et population générale. Par 
ailleurs, les comparaisons de mortalité ou de morbidité ne s'étendent 
évidemment qu'à sexe égal, âge égal, éventuellement milieu social 
égal, etc. ce qui exige les corrections d'usage. 


TYPE 3 (un groupe de sujets malades, un groupe de sujets non malades). 


C'est dans cette catégorie qu'entrent les enquêtes rétrospectives 
décrites plus haut. Elle permet de réduire les effectifs prévus par le 
type 1, tout comme le type 2, et pour des considérations symétriques, 
portant cette fois sur les effectifs des groupes malade et témoin. Le 
gain est obtenu en équilibrant ces effectifs, et il est d'autant plus grand 
que la maladie, dans la population étudiée, est plus rare : dans le cas 
du cancer du poumon, il suffit de quelques centaines de sujets dans 
chacun des groupes malade et témoin pour obtenir la même précision 
qu'avec 200 000 sujets d'un échantillon aléatoire. 


En réalité il arrive souvent, dans les enquêtes de ce genre, que 
les témoins soient plus faciles à recruter que les malades, de sorte 
qu'on préfère en réunir un plus grand nombre (n+, > n+). On se sou- 
viendra toutefois qu'il n'est pas opportun d'aller trop loin dans cette 
voie; l'expression — +— ne diminue plus guère, pour nx donné, 

* * 
L 
quand n+, devient grand : c'est ainsi qu'entre la valeur atteinte pour 
PE TT nl Re 
N+, = 3n», (soit 3 ne) et pour n*, infini (soit) la diminution de va- 
riance ne compense guère la difficulté de recrutement. 


Un cas extrême du type 3 est celui où on constitue seulement le 
groupe malade, le groupe témoins'identifiant à la population générale - 
ceci n'étant possible que si la fréquence d'exposition au facteur est con- 
"ve pour celle-ci, et si la maladie est suffisamment rare pour qu'on 
puisse confondre population non malade et population générale : on a 
comparé par exemple aux données de la population générale la situation 
de famille observée sur un groupe de 1 200 femmes atteintes de cancer 
du col utérin (48), ou la fréquence de la mortalité par cancer du sein 
dans l'ascendance féminine d'un groupe de malades atteintes de ce 
même cancer (46). Ces comparaisons sont naturellement faites à âge 
égal, éventuellement à milieu social égal, etc. par les corrections 
exposées plus loin. 
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D'une manière générale, dans les enquêtes du type 3, et surtout 
lorsqu'on craint des biais dans l'échantillonnage du groupe témoin, on 
devra tenir compte des multiples facteurs d'échantillonnage, pour des 
raisons qui ontété détaillées dans l'exemple de ‘l'enquête rétrospective A 


d) CONCLUSION. 


Le type 1, avec son échantillonnage représentatif de la population 
étudiée, est très coûteux en nombre de sujets. 


Le type 2 permet de réduire ce nombre, ceci d'autant plus que 
l'exposition au facteur est une éventualité plus rare. 


Le type 3 permet une réduction du même genre, d'autant plus 
considérable que la maladie est plus rare. 


Il va de soi qu'en contre-partie on ne saurait attendre autant des 
types 2 et 3 que du type 1 : ils ne peuvent donner que des conclusions 
moins étendues et d'une valeur plus discutable; c'est ce que précisera 
le chapitre suivant. 


Tableau 1 


Echantillon (effectifs) 
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Tableau 2 


Population générale (proportions) 


Ne NE Pit 
Proportion de sujets 
non Por - 
pe 
exposés 


CE 


Proportion 
de sujets 
exposés 

dans le 

groupe 


I - TEST ET MESURE DU ROLE ETIOLOGIQUE DE L'EXPOSITION 
AU FACTEUR - 


a) MESURE DU ROLE ETIOLOGIQUE DANS LA POPULATION 
ETUDIEE, SUPPOSEE HOMOGENE. 


Nous nous plaçons dans le cas du modèle simplifié, décrit plus 
haut, et représenté au tableau 2, où on envisage 4 catégories de su- 
jets, exposés ou non exposés, malades ou non. 


Nous supposons en outre, pour commencer, que la population 
étudiée est homogène pour les facteurs essentiels énumérés plus haut, 
tels que : âge, sexe, niveau social.. 


Indépendamment des proportions ou probabilités p,, P,,; Pos P,» 
qui définissent entièrement la situation, nous avons fait figurer simul- 
tanément au tableau 2 quelques combinaisons de ces probabilités qui, 
pour simplifier, seront désignées par des symboles plus parlants : m,, 
m,,etm , les probabilités de maladie chez les sujets non exposés,ex- 
posés, et globalement ; x,, x,, et x les proportions de sujets exposés 
au facteur x parmi les sujets indemnes, malades, et globalement. 


Si l'exposition au facteur n'intervient pas dans l'étiologie de la 
maladie m, les probabilités p,,etp,, sont proportionnelles à p,, et p,, , 
ou encore les probabilités m, et m, sont égales (ainsi d'ailleurs que 


100 DANIEL SCHWARTZ 


les proportions de sujets exposés x, et x.)..Si elle intervient, il n'en 
est pas ainsi, les probabilités m, et m, par exemple sont différentes, 
en principe dans le sens m1 > mo. 


Si l'exposition au facteur a un rôle étiologique (cette locution ne 
supposant pas qu'il s'agisse d'une relation causale) on peut se propo- 
ser de traduire ce rôle quantitativement. 


Il est d'abord certain que le rôle du facteur x est d'autant plus 
important que le tableau 2 s'écarte davantage du modèle de l'indépen- 
dance, c'est-à-dire par exemple que m, s'écarte davantage de m,. On 
pourra donc mesurer ce rôle par une expression indiquant l'écart entre 
m, et my. 


Hammond et Horn, dans l'enquête prospective sur la mortalité 
en relation avec l'usage du tabac (32), ont utilisé, pour une cause de 


décès donnée, par exemple le cancer du poumon, le rapport _ qui 


mesure la surmortalité des fumeurs. Berkson (4) pense qu'il vaudrait 
mieux utiliser la différence (m, - m,). De toute manière, aucune fonc- 
tion de m, et m, ne peut à elle seule résumer la situation définie par 
les 2 données m. et m,; il est clair que pour un rapport donné la dif- 
férence peut être très variable, et inversement. Sheps (61) souligne 
qu'il est plus intéressant de former telle ou telle fonction de m, et m, 
qui ait un sens concret dans un modèle donné. Il propose notamment 
de faire intervenir la mortalité par cancer du poumon liée en propre 
à l'usage de la cigarette, soit m,, et d'écrire la mortalité chez les 
fumeurs sous la forme : 


Mimi mie mom x (1) 


C'estlèun modèle particulièrement simple, car aux conventions 
déjà adoptées plus haut (on n'envisage pas que les sujets non exposés 
au facteur x puissent être exposés ou non à d'autres facteurs, ce qui 
conduirait à un schéma à plus de 2 dimensions), on ajoute une hypo- 
thèse supplémentaire : les sujets, qu'ils soient exposés ou non expo- 
sés au facteur x (tabac), auraient par ailleurs la même probabilité de 
décès par cancer broncho-pulmonaire pour les ‘'autres causes''. Sion 
adopte ce schéma en première approximation, de (1) on tire : 


SEPT 
do SIM (2) 


Cette fonction de m, et m, a un sens concret, puisqu'elle mesure 
la mortalité liée en propre à l'exposition au facteur x, ou encore mor- 
talité qu'on observerait en l'absence des autres causes de cancer 
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broncho-pulmonaire; c'est surtout dans le cas de la relation causale 
que cette expression est intéressante : m mesure alors l'effet propre 
du facteur x. 


1 - : 
On notera que 1 - m, ee ce dernier rapport, qui prend 
& 0 


ainsi un sens concret, est le rapport des survies des groupes exposés 
et non exposés, de sorte que le rapport des survies devient plus in- 
téressant que le rapport des mortalités. 


Il va de soi que m,, pas plus qu'une autre fonction, ne résume 
m, et m,, et qu'il faut une deuxième information pour définir le couple 
(m,, m,); celle-ci peut être m,, le couple (m,, m,) ayant une valeur 
plus concrète que le couple (m,, m,), puisqu'il exprime le risque en 
l'absence du facteur, et le risque lié en propre à l'expositionaufacteur. 

Enfin le couple (m,, m,) ne suffit pas encore à résumer la situa- 
tion décrite par le tableau 2; celui-ci est défini par 4 probabilités ps, 
DPI MD: 5 dont la somme est 1, donc par 3 données indépendantes. 
On peut alors adjoindre au couple (m,, m,) une troisième donnée, par 
exemple la fréquence de l'exposition au facteur, soit x. La situation 
serait alors ainsi résumée : 


m, : probabilité de maladie en l'absence d'exposition au facteur; 


m, : probabilité de maladie pour un sujet exposé, en l'absence d'autres 
causes de la maladie, ou effet propre du facteur dans l'hypothèse 
causale; 


x : fréquence de l'exposition au facteur. 


On peut naturellement préférer un autre groupe de 3 indices. Il 
reste que, detoute manière, le rôle étiologique d'un facteur ne saurait 
être mesuré par un seul indice : c'est là un résultat commun à tout 
problème de liaison entre 2 variables aléatoires dichotomiques et qu'on 
rencontre sous une forme similaire quand on veut mesurer le rôle d'un 
critère en matière de pronostic ou de diagnostic. 


Un indice intéressant est la proportion de cas dus au facteur 


(proportion de cancers du poumon dus à l'usage du tabac), soit x,. 
C'est: 


= MERE = _X(m = mo) (3) 
"t (1 - x)m, + xm, A (MU) 


ou, en fonction de m,, m,, de x, 
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5 X(1SSEM A) MS 4 
SENS F0 eur xX(1 = mo)m, 


b) TEST ET MESURE DU ROLE ETIOLOGIQUE D'APRES 
L'ECHANTILLON REPRESENTATIF D'UNE POPULATION 


HOMOGENE. 


Pour commencer, nous supposons ici l'échantillonnage correct, 
c'est-à-dire donnant un échantillon représentatif de la population étu- 
diée dans le type 1, deux groupes représentatifs des catégories expo- 
sée et non exposée dans le type 2, malade et témoin dans le type 3. 


Nous supposons encore qu'ils'agit, dans chacunde ces cas, d'une 
population homogène en ce qui concerne les caractéristiques essentiel- 
les énumérées dès l'introduction de cet exposé, c'est-à-dire de sexe 
donné, d'âge donné, éventuellement de niveau socialou de milieu d'ha- 
bitation donné ... 


I1 s'agit, d'après l'échantillon observé, d'éprouver puis d'esti- 
mer le rôle étiologique de l'exposition au facteur. 


Le TYPE 1 permet de connaître complètement le rôle étiologique 
du facteur : on éprouve d'abord ce rôle par jugement sur l'échantillon 
du tableau 1, à l'aide d'un test classique (Xe sur le tableau 2 x si il 
Nii 


: 


: ; : n 

est possible ensuite d'estimer m,par 2 , m,par 
P a estimer mo n 1P 

0 * l* 


Dans le TYPE 2, on a encore des estimations valables de m, et 
m,, et leur comparaison permet d'éprouver le rôle étiologique du 
facteur. Cette comparaison de proportions se ramène, ici encore , à 
un test de X° sur le tableau 2 x 2. La mesure du rôle étiologique ne 
saurait par contre être complète : on a des estimations de m, et m, 
comme ci-dessus. Mais la fréquence x de l'exposition n'est pas con- 
nue, puisqu'ona choisi arbitrairement les effectifs des groupes exposé 
et nonexposé. Ce mode d'enquête ne permet donc que d'évaluer l'effet 
du facteur, mais pas sa fréquence. (Notons qu'il est parfois possi- 
ble de connaître celle-ci par ailleurs, à l'aide de données statistiques 
générales). 


Dans le TYPE 3, une difficulté se présente dès le test d'as- 
sociation:onne peut pas comparer m, et m,, car on ne dispose pas de 
leurs estimations du fait qu'on a choisi arbitrairement les effectifs 
des groupes malade et témoin. Par contre on a des estimations cor- 
rectes de x, et x, qu'on peut comparer par un test de signification, 
qui est ici encore un X° sur le tableau 2 x 2. Or il est visible que ce 
test permet d'éprouver le rôle étiologique du facteur. Si les désigna- 
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tions ‘'malade!"' ou ‘'non malade''des tableaux 1 et 2 désignent des sujets 


présentant la maladie pendant l'époque de l'enquête(1), le test d'as- 
sociation est réversible : si x,> x,, On a aussi m1 > mo, c'est-à-dire 
une fréquence des cas de maladie, dénombrables pendant un intervalle 
de temps donné, plus élevée dans le groupe exposé, ce qui indique le 
rôle étiologique du facteur. 


La mesure de ce rôle est malaisée : on peut estimer seulement 
x, et x, ce qui donne comme dans le type 2 deux indices au lieu de 3; 
mais ces indices ne sont guère intéressants, et on ignore m,, m,, et 
x, - à moins naturellement que 1a fréquence de la maladie dans la po- 
pulation générale ne soit par ailleurs connue par des données statisti- 
ques, auquel cas, disposant de 3 données, on peut connaître complè- 
tement le rôle du facteur. 


Toutefois, lorsque la fréquence de la maladie, sans être connue, 
est faible, on peut tirer de l'enquête des renseignements étiologiques 
plus intéressants; si on suppose la maladie rare, tant pour le groupe 
exposé que pour le groupe non exposé, on a en effet : 


Le Poi 4 Poi 
th 7 ct ALAN 


p p 
m, = _ 11 
P, P:; Po 
m pp p p 
LE 5 LEO or 00 (5) 


et ] 
m, Pa Poo Poi Por 


expression qui peut être estimée, à partir des données, par 


n,, Do 


(6) 


Le rapport _ a été appelé risque relatif par Cornfield (15), qui 
0 


en a donné l'estimation par la formule (6), ainsi que les limites de 
confiance. Ce risque relatif r mesure le rapport entre les proportions 
de sujets présentant la maladie donnée, pendant un intervalle de temps 
déterminé, chez les sujets exposés et non exposés. Dans le cas du 
cancer broncho-pulmonaire par exemple, le risque relatif des fumeurs 


(1) I s'agit donc, pour reprendre la distinction définie plus haut, des cas exis- 
tant à un moment donné (en anglais prevalence). 
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par rapport à celui des non fumeurs, est de l'ordre de 10. 


Le risque relatif reste naturellement soumis aux limitations in- 
diquées plus haut pour le rapport EL ilne saurait à lui seul résumer 


m,etm,, et 2 situations étiologiques caractérisées, l'une par 
m, = 1/1 000, m, = 10/1 000, l'autre par des proportions 10 fois plus 
élevées, donnent le même risque relatif r = 10 alors que (m, - m,) par 
exemple est très différente. Mais le risque relatifa pour lui de pouvoir 
être estimé à partir des données, ce qui n'est le cas ni pour (m, - mu), 
TIPOUTAM 


La place du facteur x dans l'étiologie peut également, - toujours 
dans la même hypothèse de maladie rare et dans le cas du modèle dé- 
crit plus haut - être connue. La proportion de cas dus à la maladie 
étant d'après (3) : 


hs X(M, - Mo) 
il (1 - x)mo + xm 


on a, pour une maladie rare, 


x # Ps LR pes m,#Æu, m, #-Pu 
Poo Pio 
PioPo1 PioPo1 
VIENS Le 
de sorte que : x. RC 2 = _BoPn (7) 
Bi Pi: Por de 5 
P,; 
ex . Po Por . 
pression dépendant seulement de et ,; qu'on peutestimer 
00 11 


d'après l'échantillon. 


En faisant intervenir les proportions de sujets exposés, dans les 
groupes malade 


et non malade 


Xo = PTT EE 
Po Po 


on peut exprimer x, sous les formes : 
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Xp © È (8) 
ou 
__ x(r-1) 
Here ) 


proposée par Levin (39). 


c) TEST ET MESURE DU ROLE ETIOLOGIQUE, DANS LE 
CAS D'UNE POPULATION HETEROGENE (ELIMINATION 
DE L'INFLUENCE DES TIERS FACTEURS). 


Il arrive le plus souvent que la population étudiée soit hétérogène 
au regarddes facteurs déclarés essentiels, tels que sexe, âge, milieu 
d'habitation ... Il s'agit alors, d'après un échantillon reflétant cette 
hétérogénéité, d'éprouver puis de mesurer le rôle étiologique de l'ex- 
position au facteur. 


On peut diviser chacun des facteurs essentiels en classes, par 
exemple : 5 tranches d'âge, 4 niveaux sociaux, 3 milieux d'habitation 
(grande ville, petite ville, campagne). Les diverses combinaisons de 
res classes constituent c ‘'cellules"' (ici 5 x 4 x 3 = 60 cellules). 


Chacune de ces cellules est homogène. 


Une première solution du problème consiste à étudier séparément 
chaque cellule, par les procédés indiqués précédemment, autrement 
dit à subdiviser l'enquête en c sous-enquêtes; c'est la seule solution 
réellement correcte; elle permet d'observer éventuellement des résul- 
tats différents selon les cellules. 


Cependant, dès que le nornbre des cellules est élevé, les effec- 
tifs y deviennent trop faibles pour que ce procédé soit applicable. 


Onestalors conduit à étudier simultanément les c sous-enquêtes 
par une analyse d'ensemble, en supposant réalisées certaines hypothè- 
ses d'identité des résultats d'une cellule à l'autre. Cette analyse vise 
ainsi à corriger l'hétérogénéité de la population, en indiquant ce que 
serait le rôle étiologique de l'exposition au facteur à âge, niveau social, 
et milieu d'habitation donnés, donc à éliminer l'influence de ces tiers 
facteurs. 


La première partie de cette analyse estletest du rôle étiologique. 
L'hypothèse faite pour permettre une étude simultanée des diverses 
cellules est que, si l'exposition au facteur joue un rôle dans l'étiolo- 
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gie, ceci doit être vrai dans toutes les cellules, et l'hypothèse nulle | 
est l'absence de rôle étiologique dans chacune des cellules. 


On est alors ramené à éprouver, par un test unique, l'absence 
de liaison dans un ensemble de tableaux de contingence 2 x 2. 


Ce problème est justiciable de plusieurs solutions (voir notam- | 
ment 13, 42): 


1/ On peut utiliser la somme des X?, avec la somme des degrés 
de liberté (c). Ce test présente un inconvénient : il ne tient pas compte 
du signe de la différence dans chaque cellule. 


2/ On peut comparer à O la moyenne des X par l'écart-réduit 


(X moyen) -O __ X E 
1/Vc 
Ce test est en général meilleur que le précédent, mais il a encore 


l'inconvénient d'attribuer un même poids aux cellules, quel que soit 
leur effectif. 


3/ Une meilleure solution consiste à donner des poids aux di- 
verses cellules. Adoptons les désignations ci-dessous pour la cellule 
i (dans le cas du type 3; s'il s'agit du type 1ou 2 on intervertira les 
termes ‘'malade'' et ''exposé"'). 


malades 


Proportion de sujets non exposés 


Le test de l'égalité à O de l'ensemble des d; peut être effectué 
en comparant à O une combinaison pondérée Za;d:, où on calculera 
les a; de façon à obtenir le test le plus puissant. 


Si on désigne par P, et Q; les proportions dans l'ensemble de la 


cellule, et si on pose = = . ++, Cochran (13) propose comme solu- 
tion le test: | , 
2 _(2wd; Ÿ 
VUIWIP 10, 


avec un degré de liberté. 
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Mantel et Haenszel (49) proposent un test très voisin, modifié 
pour tenir compte de la correction de ‘continuité. 


4/ On peut également, dans chaque cellule, calculer les effectifs 
théoriques des 4cases dans l'hypothèse d'indépendance pour cette cel- 
lule. On somme ensuite les effectifs des cases homologues de toutes 
les cellules; aux 4 effectifs théoriques ainsi obtenus on compare les 4 
effectifs observés sur l'échantillon total, parun X° à 1 degré de liberté 
(6). L'intérêt de ce test, par rapport aux précédents, est qu'il est fa- 
cilement généralisable au cas où l'exposition au facteur x comporte 
plus de2 classes, à condition de prendre le nombre de degrés de li- 
berté voulu. 


D'autres tests ont également été proposés. En fait, la neutrali- 
sation de variables plus ou moins nombreuses dans la comparaison de 
2 groupes est un problème très général, mais il est si important dans 
le cas des enquêtes médicales qu'il constitue l'élément principal de 
leur analyse. Ceci explique la variété des tests utilisés. 


La plupart des procédés indiqués rappellent la ‘standardisation 
plup P 

par âge" utilisée par les démographes pour comparer ‘'à âge égal" 2 
populations dont la distribution d'âge est différente. Aussi sont-ils 


communément appelés standardisation par âge, situation sociale, 


milieu d'habitation, etc. 


La standardisation est appliquée d'une manière relativement em- 
pirique, tant par le choix des tiers facteurs retenus (qui peut être res- 
treint ou étendu) que par leur division en classes, et la constitution 
finale des cellules : il arrive qu'on standardise par rapport à chaque 
facteur isolément, ou par rapport à des groupes de deux, plutôt que 
de procéder à une standardisation d'ensemble conduisant à un grand 
nombre de cellules d'effectif très faible. Il peut arriver également 
qu'on fasse une étude séparée par sexe, avec pour chaque étude une 
standardisation pour les autres facteurs. Le choix entre les diverses 
voies d'approche est une affaire d'opportunité. 


Les tests qui viennent d'être décrits, pour complexes qu'ils 
soient, ne représentent qu'un premier pas : l'épreuve d'association. 
Si l'exposition au facteur s'avère jouer un rôle étiologique, il reste à 
le mesurer. 


Cette mesure peut être faite dans chaque cellule, mais l'élabo- 
ration d'une mesure unique, englobant les résultats de toutes les cel- 
lules, soulève des difficultés, car elle n'a de sens que si on suppose 
une comparabilité de toùtes les cellules, qui est rarement vérifiée : 
dans le cas, par exemple, des enquêtes rétrospectives de type 3, une 
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combinaison pondérée des risques relatifs.ne paraît intéressante que 
si l'espérance mathématique de ces risques est la même dans toutes 
les cellules, hypothèse peu vraisemblable. Diverses combinaisons 
pondérées, de nature empirique, ont été proposées (49), mais leur 
difficulté d'interprétationne fait que souligner les limitations d'emploi 
du risque relatif. 


Un mot doit être dit enfin des enquêtes avec appariement; l'appa- 


riement peut être utilisé, dans les enquêtes de type 2 et 3, pour ren- 
dre comparables, vis-à-vis de certains facteurs, les groupes exposé 
et non exposé ou malade etnon malade. C'est donc une méthode visant, 
dès le stade de l'échantillonnage, à corriger l'hétérogénéité de l'in- 
fluence de tiers facteurs. 


Cependant l'appariement ne remplit complètement sa fonction 
que si l'analyse statistique en tient compte. On peut utiliser les tests 
classiques pour la comparaison de deux proportions dans des séries 
de sujets appariés (voir notamment 49). Ces méthodes sont généralisa- 
bles au cas où l'exposition au facteur comporte plus de 2 classes (41). 


Le gainde précision conféré par l'appariement n'est intéressant 
que si la variable d'appariement est fortement liée à l'exposition au 
facteur (12). 


d) VALIDITE DES RESULTATS. 


Les perfectionnements mathématiques apportés à l'analyse sta- 
tistique ne doivent pas faire perdre de vue diverses erreurs portant sur 
les données de base, et qui peuvent retirer toute valeur aux con- 
clusions. 


Il s'agit d'étudier l'association entre 2 variables x et m. 


Ces variables sont d'abord passibles d'une erreur d'apprécia- 
tion : on peut classer un sujet comme fumeur alors qu'il ne l'est pas, 
et inversement; comme atteint de cancer du poumon alors qu'il en est 
indemne, et inversement; de telles erreurs sont inévitables (ne serait- 
ce que parce qu'un sujet témoin souffre peut-être d'un cancer encore 
inapparent), mais il importe d'en distinguer 2 catégories : 


- les erreurs portant sur une des variables sans relation 
avec l'autre ne sont pas graves : classer quelques sujets dans un groupe 
au lieu de l'autre revient à atténuer l'écart entre ces groupes et à dimi- 
nuer la puissance du test, mais ne risque pas d'entraîner des conclu- 
sions erronées; 


- beaucoup plus graves sont, par contre, les erreurs in- 


LA MÉTHODE STATISTIQUE EN MÉDECINE 109 


fluencées par la liaison à étudier : si, parce que le sujet est atteint d'un 
cancer du poumon, lui-même ou l'enquêteur qui l'interroge exagèrent 
Sa consommation de tabac, si inversement le médecin fait intervenir 
dans les éléments de son diagnostic de cancer une consommation de 
tabac élevée, alors on risque d'observer une association reflétant uni- 
quement l'idée préconçue. Or la subjectivité des réponses est souvent 
manifeste : les malades atteints d'un cancer du pharynx se remémorent 
ou insistent davantage sur les maux de gorge antérieurs, les femmes 
atteintes d'un cancer du sein ont tendance à exagérer la fréquence des 
douleurs mammaires dans leur passé, ou des cancers du sein dans 
leur famille. D'une manière générale, la comparabilité des interro- 
gatoires entre sujets malades et témoins, ou exposés et non exposés, 
est une des difficultés majeures de l'enquête : comment obtenir qu'une 
mère, dont l'enfant est mort de leucémie, réponde à l'interrogatoire 
de la même façon qu'une mère témoin ? 


Aussi l'élimination de ce type d'erreur doit-elle être recherchée 
par tous les moyens. 


Ilfaut d'abord obtenir un diagnostic indépendant du facteur x, ce 
qui est facile si le diagnostic repose sur des éléments objectifs, par 


exemple l'histologie pour un cancer. 


Il faut ensuite obtenir, pour le facteur x, des informations indé- 
pendantes du diagnostic; c'est ici que l'enquête prospective décrite 
plus haut offre des garanties supérieures à toute autre, puisque l'in- 
terrogatoire a lieu à un moment où la maladie n'est pas encore décla- 
rée. Dans les autres modes d'enquête, lorsque la maladie est déjà 
déclarée au moment de l'interrogatoire, l'ignorance du diagnostic par 
le malade, l'enquêteur, ou les deux, doit être recherchée dans toute 
la mesure du possible : on interrogera par exemple comme malades et 
témoins des sujets consultant pour une tumeur qui n'est cataloguée 
qu'ultérieurement comme maligne ou bénigne; Doll et Hill(22) ont ainsi 
apporté un argument important en signalant que la proportion de fu- 
meurs était normale chez des sujets étiquetés ‘'eancer du poumon" au 
moment de l'interrogatoire, et dont le cancer a été infirmé ultérieure- 
ment. Un autre argumentimportant est que certains types histologiques 
seulement sont liés à l'usage du tabac, et pas d'autres, alors que le 
type histologique n'est pas connu au moment de l'interrogatoire. 


Les considérations précédentes avaient trait aux erreurs de me- 
sure; des réserves analogues doivent être énoncées pour les erreurs 
d'échantillonnage, qu'on doit également subdiviser en 2 catégories : 


- les erreurs d'échantillonnage portant sur une des varia- 


bles ne sont pas trop graves : si dans une enquête du type 1 l'échantil- 
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lon observé n'a pas tout à fait le même milieu social que la population 
étudiée, la consommation de tabac sera peut-être faussée, mais les 
méfaits éventuels de cette consommation le seront sans doute peu; si, 
dans les enquêtes de types 2et3 l'échantillonnage des groupes à com- 
parer diffère quelque peu, on pourra corriger ces différences par une 
standardisation. 


- beaucoup plus graves sont par contre les erreurs 


d'échantillonnage portant sur l'association même des 2 variables. 


Les enquêtes du type 1 présentent à cet égard une certaine sé- 
curité. Berkson (2) a, il est vrai, imaginé une cause d'erreur possi- 
ble dans les enquêtes prospectives sur les fumeurs ; cependant un tel 
biais reste minime (35). 


Il n'en est pas de même dans les enquêtes du type 2, et surtout 
dutype 3; un premier exemple d'erreur a été signalé par Berkson (1) : 
c'estle cas où on étudie l'association entre une maladie m et une autre 
maladie, jouant le rôle du facteur x, parmi les malades se présentant 
à l'hôpital. Les sujets souffrant de la maladie m ont une certaine pro- 
pension à se rendre à l'hôpital. S'ils souffrent en outre de la maladie 
x, cette propension est plus élevée, de sorte que l'échantillon hospi- 
talier de malades (m) montrera une proportion trop élevée de sujets 
souffrant de la maladie x. Chez les témoins - qui sont les malades 
souffrant de diverses maladies - ce biais existe également, plus forte- 
ment ou moins fortement que pour la maladie m, selon le cas ; la com- 
paraison des 2 groupes peut alors faire apparaître des différences pure- 
ment artificielles. 


La même situation se présente lorsqu'on étudie l'association 
entre 2 maladies ousignes morbides dans une série d'autopsies : par 
exemple entre nodules tuberculeux et cancer. Les 4 combinaisons, 
avec et sans cancer, avec et sans nodules, sont, chez des sujets dé- 
cédés, différentes de celles qui existent dans la population générale, 
en raison de leurs taux de mortalité différents; on peut admettre que, 
chez les sujets non cancéreux, la présence de nodules augmente la 
mortalité, tandis que cet effet est négligeable chez les cancéreux : ainsi 
apparaîtra illusoirement chez les décédés une association négative , 
entre nodules tuberculeux et cancer, qui n'existe pas dans la popula- 
tion générale des vivants (2,47). 


De tels biais soulignent une limitation de ce genre d'enquête où 
malades et témoins se recrutent d'eux-mêmes par leur venue dans 
l'échantillon (par la décision de consulter, par la mort, etc.) : c'est 
qu'il n'est pas possible d'étudier le rôle étiologique d'un facteurin- 


fluençant le recrutement, ou du moins l'influençant inégalement pour 
les malades et les témoins. 


LA MÉTHODE STATISTIQUE EN MÉDECINE 111 


I faut bienle dire : le statisticien, habitué à constituer un échan- 
tillon par des procédés classiques de tirage au sort, risque d'être 
surpris, voire choqué, en découvrant que dans la plupart des enquêtes 
médicales on laisse aux sujets la responsabilité de l'auto-recrute- 
ment. Pour une maladie donnée, le fait d'aller à l'hôpital occasionne 
déjà une première sélection, dépendant de facteurs sociaux et psycho- 
logiques. Les sujets présents un jour donné à l'hôpital constituent une 
nouvelle sélection, un malade ayant d'autant plus de chances d'être pré- 
sent que sa durée d'hospitalisation est plus longue (57). Dans le même 
ordre d'idées, l'échantillon de malades vivants un jour donné constitue 
également une sélection renforçant la proportion de malades à survie 
longue (53). La notion de représentativité fait trop souvent place à la 
notion de commodité, etil arrive, comme le fait remarquer Dorn dans 
une mise au point récente (27), qu'une enquête du type 3 vise à compa- 
rer ‘deux échantillons sans spécification provenant par une méthode 
d'échantillonnage inconnue d'une population non identifiée". 


Ceci ne doit pas être considéré comme une condamnation des 
enquêtes du type 3, qui restent le seul moyen facilement réalisable de 
suggérer des facteurs étiologiques; mais leurs conclusions doivent être 
accueillies avec réserve, et soumises, lorsque l'enjeu en vaut la peine, 
à la confirmation d'enquêtes du type 1, plus rigoureuses mais infini- 
ment plus difficiles à entreprendre. 


e) CONCLUSION. 


L'analyse du rôle étiologique d'un facteur peut être complète dans 
le type 1; elle est nécessairement incomplète dans le type 2 et surtout 
dans le type 3. 


La validité des résultats ne peut d'autre part être garantie que 
si l'on a pu éviter des erreurs de mesure et des erreurs d'échantillon- 
nage portant précisément sur la liaison à étudier; à cet égard on peut 
obtenir une relative sécurité avec les enquêtes du type 1, tandis que 
les biais sont plus difficilement évitables dans le type 2 et surtout dans 
le type 3. 


IL - L'INTERPRETATION CAUSALE - 


Après avoir évité les biais et pièges de tout ordre, éliminé le 
rôle de quelques ‘tiers facteurs" essentiels (sexe, âge ...), on con- 
clut au rôle étiologique de l'exposition au facteur x. Peut-on interpré- 
ter ce rôle en termes de causalité ? 


Nous avons souligné dès le départ l'impuissance fondamentale à 
cet égard de l'enquête d'observation; dans une expérimentation, on peut 
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exposer ou non au facteur 2 groupes comparables à tout point de vue, 
de sorte que toute différence revêt d'emblée une signification causale; 
dans l'observation l'exposition au facteur est déterminée aléatoirement, 
en liaison avec d'autres facteurs x,, x,, ... parmi lesquels peut se 
trouver la vraie cause : les fumeurs étant plus souvent des citadins et 
des buveurs de café, la vraie cause du cancer du poumon ne serait-elle 
pas l'abus du café, ou l'atmosphère polluée des villes ? En outre, 
dans une expérience, on peut souvent maintenir la comparabilité entre 
les groupes exposé et non exposé après l'intervention du facteur, tandis 
que dans les conditions spontanées ces 2 groupes peuvent se différen- 
cier systématiquement : les fumeurs, sujets au catarrhe, devront 
peut-être davantage se faire radiographier : si les rayons X étaient 
alors la cause du cancer broncho-pulmonaire, l'usage du tabac serait 
certes un facteur causal, mais par une voie indirecte dont la significa- 
tion serait très différente de la causalité directe. 


De fait, bien des facteurs apparus, au cours d'une enquête, 
comme associés à l'apparition d'une maladie, sont sans action cau- 
sale réelle : le niveau social pour le cancer de l'estomac (14), la pres- 
bytie précoce dans le cas de la maladie coronarienne (8), entrent sans 
doute dans cette catégorie. 


Par contre, dans d'autres cas, comme celui du tabac pour le 
cancer du poumon, il est possible de justifier une forte présomption 
de causalité. 


Il est d'abord possible d'argumenter contre l'objection du "tiers 
facteur". Si la ‘vraie cause" du cancer broncho-pulmonaire est un 
facteur lié à l'usage du tabac, par exemple l'abus du café, on doit 
alors observer qu'à consommation de café donnée le rôle du facteur 
tabac disparaît ; cette étude du rôle du tabac à niveau égal pour diffé- 
rents autres facteurs peut être effectuée, ceci par les divers procédés 
envisagés plus haüt (standardisation). L'élimination des ‘tiers fac- 
teurs'"'entreprise déjà pour certains facteurs essentiels (sexe, âge...) 
dans l'épreuve du rôle étiologique, peut être poursuivie avec plus de 
détails pour toute une série de facteurs liés à l'exposition au facteur 
x (ceci est nécessaire quel que soit le type d'enquête). Cetravail a 
été fait, dans le cas du cancer broncho-pulmonaire, et on a observé 
que la prise en considération de plusieurs dizaines de facteurs ne per- 
mettait en aucun cas d'"'innocenter'' le tabac (20). 


Sans doute cette méthode d'exploration est-elle soumise à une 
sérieuse limitation : elle ne permet d'étudier que les facteurs prévus 
dans l'interrogatoire des malades; or la "vraie" cause peut être insoup- 
çonnée. Maisici intervient un argument d'ordre quantitatif : la liaison 
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entre l'usage du tabac et l'apparition du cancer broncho-pulmonaire 
étant très forte, ilest facile de montrer qu'elle ne peut être ‘expliquée 


par untiers facteur, que si celui-ci est à la fois très lié à l'apparition 
de ce cancer et à l'usage du tabac (16); il est peu probable qu'un tel 


facteur ait échappé aux nombreuses investigations effectuées. Il n'est 
pas suffisant, pour invalider l'hypothèse causale, de déceler par exem- 
ple un effet de l'hérédité dans l'habitude de fumer : il faudrait encore 
que la constitution génétique fût fortement liée à cette habitude (ce qui 
n'est pas le cas), et à l'apparition du cancer broncho-pulmonaire (ce 
qui n'a pas été signalé). D'une manière générale, plus l'association 
est forte, entre l'exposition au facteur et l'apparition de la maladie, 
et plus la présomption causale est solide. 


Cependant l'élimination de tous les tiers facteurs n'est pas con- 
cevable (le fût-elle qu'elle n'apporterait d'ailleurs pas la certitude : à 
la limite, siles cancéreux et les témoins ne différaient que par l'usage 
du tabac, on pourrait supposer que c'est le cancer qui conduit les su- 
jets à fumer ...). 


C'est pourquoi d'autres arguments, de divers ordres, doivent 
être recherchés. Indiquons que, dans le cas du facteur tabac, - indé- 
pendamment des confirmations obtenues en laboratoire, in vitro et in 
vivo, dont la contribution est toujours essentielle -, on a observé les 
relations suivantes : 


- la probabilité de cancer broncho-pulmonaire est plus 
élevée chezle fumeur que chezle non fumeur, d'autant plus qu'il fume 
davantage, selon une loi proportionnelle ; elle diminue si le sujet s'est 
arrêté de fumer, et d'autant plus qu'il s'est arrêté plus tôt; 


- onrencontre chezles fumeurs une proportion exagérée 
de cancers de la cavité buccale, du pharynx, du larynx, de l'œso- 
phage, et de la vessie - c'est-à-dire de toutes les localisations direc- 
tement exposées à la fumée ou à ses dérivés immédiats - et une pro- 
portion normale des autres cancers; 


- la probabilité de cancer est augmentée par le fait de res- 
pirer la fumée lorsqu'il s'agit du cancer des bronches ou du larynx, 
ellen'est pas augmentée pour les autres cancers des voies aéro-diges- 
tives supérieures. 


La convergence parfaite de ces arguments dans le sens de la re- 
lation causale ne peut manquer de frapper. Si l'usage du tabac n'est 
pas la ‘'vraie'" cause, il faut qu'il accompagne celle-ci bien fidèle- 
ment : présent quand elle est présente, absent si elle disparaît, faible 
ou fort à sa mesure. L'hypothèse d'un facteur aussi ‘mimétique" ne 
saurait être écartée avec certitude, mais elle fait penser à la phrase 
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de l'humoristé : on a découvert l'auteur des pièces de Shakespeare; 
c'est un homme qui vivait à la même époque, dans le même village, 
et qui portait le même nom que lui... 


Ce n'est pas, cependant, sur l'étiologie du cancer broncho-pul- 
monaire qu'il serait équitable de terminer : si on a pu, dans ce cas, 
après plus de 25 enquêtes, parvenir à la quasi-certitude, c'est qu'il 
s'agit d'un cas facile : la probabilité de cancer broncho-pulmonaire est 
extrêmement faible chez un non fumeur, elle est dix fois plus élevée 
si le sujet fume, et l'usage du tabac est très répandu; l'exposition au 
facteur joue donc dans l'étiologie de cette maladie un rôle considérable. 


Mais dans beaucoup d'enquêtes, la situation se présente moins 
favorablement : alors un travail ardu d'interrogatoire, une analyse 
statistique complexe pour tenir compte de multiples variables, ne con- 
duisent, en ce qui concerne la relation causale, qu'à des conclusions 
incertaines : seule est responsable de cette faible rentabilité la com- 
plexité même du sujet. 
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